Um dos padrinhos do deep learning reúne ideias antigas para esboçar um novo caminho para a Inteligência Artificial, mas levanta tantas perguntas quanto responde.
Há cerca de um ano e meio, Yann LeCun percebeu que estava errado.
LeCun, cientista-chefe do laboratório de Inteligência Artificial (IA) da Meta e professor da Universidade de Nova Iorque (EUA), é um dos investigadores de IA mais influentes do mundo. Ele estava a tentar dar às máquinas uma compreensão básica de como o mundo funciona, uma espécie de bom senso, treinando redes neurais para prever o que aconteceria a seguir em vídeos de eventos quotidianos. Mas adivinhar frames futuros de um vídeo pixel por pixel era muito complexo. Ele deu de cara em uma parede.
Agora, depois de meses a investigar o que estava a faltar, tem uma nova visão ousada para a próxima geração de IA. Num documento preliminar partilhado com a MIT Technology Review americana, LeCun esboça uma abordagem que acha que um dia dará às máquinas o bom senso de que precisam para transitar pelo mundo. (atualização: desde então, LeCun publicou o documento online.)
Para LeCun, as propostas podem ser os primeiros passos no caminho para construir máquinas com a capacidade de raciocinar e planear como humanos, o que muitos chamam de Inteligência Artificial Geral, ou AGI. Também se afasta das tendências atuais em machine learning, ressuscitando algumas ideias antigas que saíram de moda.
Mas a sua visão está longe de ser abrangente; na verdade, pode levantar mais perguntas do que respostas. O maior ponto de interrogação, como o próprio LeCun aponta, é que não sabe construir o que descreve.
A peça central da nova abordagem é uma rede neural que pode aprender a ver o mundo em diferentes níveis de detalhes. Abandonando a necessidade de previsões de pixels perfeitos, essa rede se concentraria apenas nos recursos numa cena que são relevantes para a tarefa em questão. LeCun propõe emparelhar esta rede principal com outra, chamada de configurador, que determina qual nível de detalhe é necessário e ajusta o sistema geral de acordo.
Para LeCun, a AGI fará parte de como interagimos com a tecnologia do futuro. A sua visão é influenciada pela do seu empregador, Meta,o que está a promover um metaverso de realidade virtual. Diz que em 10 ou 15 anos as pessoas não estarão a carregar smartphones nos bolsos, mas óculos de realidade aumentada equipados com assistentes virtuais que guiarão os humanos durante o dia. “Para que eles sejam mais úteis para nós, basicamente precisam ter mais ou menos inteligência no nível humano”, diz ele.
“Yann vem falando sobre muitas dessas ideias há algum tempo”, diz Yoshua Bengio, investigador de IA da Universidade de Montreal, Canadá, e diretor científico do Instituto Mila-Quebec. “Mas é bom ver tudo isso junto, como num grande quadro”. Bengio acha que LeCun faz as perguntas certas. Também acha ótimo que LeCun esteja disposto a publicar um documento que tem tão poucas respostas. É uma proposta de pesquisa e não um conjunto de resultados limpos, diz.
“As pessoas falam sobre essas coisas em particular, mas que geralmente não são partilhadas publicamente”, diz Bengio. “É arriscado”.
Uma questão de bom senso
LeCun pensa em IA há quase 40 anos. Em 2018, foi o vencedor conjunto do prémio principal da computação, o Turing Award, com Bengio e Geoffrey Hinton, pelo seu trabalho pioneiro em deep learning. “Fazer com que as máquinas se comportem como humanos e animais tem sido a missão da minha vida”, confessa.
LeCun pensa que os cérebros dos animais executam uma espécie de simulação do mundo, que chama de modelo mundial. Aprendida na infância, é a maneira como os animais (incluindo os humanos) fazem boas suposições sobre o que está a acontecer ao seu redor. Os bebés aprendem o básico nos primeiros meses de vida observando o mundo, diz LeCun. Ver uma bola cair um punhado de vezes é suficiente para dar à criança uma noção de como a gravidade funciona.
“Bom senso” é o termo genérico para esse tipo de raciocínio intuitivo. Inclui uma compreensão da física simples: por exemplo, saber que o mundo é tridimensional e que os objetos não desaparecem quando ficam fora de vista. Ele nos permite prever onde uma bola vai cair ou uma bicicleta em alta velocidade estará em alguns segundos. E isso nos ajuda a juntar os pontos entre informações incompletas: se ouvirmos um barulho metálico vindo da cozinha, podemos adivinhar que alguém deixou cair uma panela, porque sabemos que tipos de objetos fazem esse barulho e quando fazem isto.
Em suma, o senso comum nos diz quais eventos são possíveis e impossíveis, e quais eventos são mais prováveis do que outros. Ele nos permite prever as consequências de nossas ações e fazer planos, além de ignorar detalhes irrelevantes.
Mas ensinar bom senso às máquinas é difícil. As redes neurais de hoje precisam receber milhares de exemplos antes de começarem a identificar esses padrões.
De muitas maneiras, o senso comum equivale à capacidade de prever o que vai acontecer a seguir. “Esta é a essência da inteligência”, diz LeCun. É por isso que ele, e alguns outros investigadores, têm usado vídeos para treinar os seus modelos. Mas as técnicas de machine learning existentes exigiam que os modelos predissessem exatamente o que aconteceria no próximo frame e gerassem o resultado pixel por pixel. Imagine que segura uma caneta e a solta, diz LeCun. O senso comum diz-lhe que a caneta cairá, mas não a posição exata em que terminará. Prever isso exigiria processar algumas equações físicas difíceis.
É por isso que LeCun está agora a tentar treinar uma rede neural que pode se concentrar apenas nos aspectos relevantes do mundo: prever que a caneta cairá, mas não exatamente como. Ele vê essa rede treinada como o equivalente ao modelo mundial em que os animais confiam.
Ingredientes misteriosos
LeCun diz que construiu uma versão inicial desse modelo de mundo que pode fazer o reconhecimento básico de objetos. Agora está a trabalhar em treiná-lo para fazer previsões. Mas como o configurador deve funcionar permanece um mistério, diz ele. LeCun imagina essa rede neural como o controlador de todo o sistema. Decidiria que tipo de previsões o modelo mundial deveria fazer num determinado momento e em que nível de detalhe deveria se concentrar para tornar essas previsões possíveis, ajustando o modelo mundial conforme necessário.
LeCun está convencido de que algo como um configurador é necessário, mas não sabe como treinar uma rede neural para fazer o trabalho. “Precisamos descobrir uma boa receita para fazer isso funcionar, e ainda não temos isso”, diz ele.
Na visão de LeCun, o modelo de mundo e o configurador são duas peças-chave num sistema maior, conhecido como arquitetura cognitiva, que inclui outras redes neurais, como um modelo de percepção que detecta o mundo e um modelo que usa recompensas para motivar a IA explorar ou refrear o seu comportamento.
Cada rede neural é aproximadamente análoga a partes do cérebro, diz LeCun. Por exemplo, o configurador e o modelo de mundo destinam-se a replicar funções do córtex pré-frontal. O modelo de motivação corresponde a certas funções da amígdala e assim por diante.
A ideia de arquiteturas cognitivas, especialmente aquelas inspiradas no cérebro, existe há décadas. Assim como muitas das ideias de LeCun sobre previsão usando modelos com diferentes níveis de detalhes. Mas quando o deep learning se tornou a abordagem dominante em IA, muitas dessas ideias mais antigas saíram de moda. “As pessoas na pesquisa de IA meio que se esqueceram disso um pouco”, diz ele.
O que fez foi pegar essas ideias mais antigas e reabilitá-las, sugerindo maneiras de combiná-las com o deep learning. Para LeCun, revisitar essas ideias fora de moda é essencial, porque ele acredita que as duas abordagens dominantes na IA moderna são becos sem saída.
Quando se trata de construir IA de uso geral, existem dois campos principais. Num deles, muitos investigadores acham que o sucesso extraordinário de modelos muito grandes de linguagem ou criação de imagens, como o GPT-3 e o DALL-E da OpenAI, mostram que tudo o que precisamos fazer é construir modelos cada vez maiores.
No outro campo estão os campeões do learning reinforcement, a técnica de IA que recompensa comportamentos específicos para fazer com que as redes neurais aprendam por tentativa e erro. Esta é a abordagem que a DeepMind usou para treinar suas IAs de jogo como AlphaZero. Obtenha as recompensas certas e o learning reinforcement acabará produzindo uma inteligência mais geral.
LeCun não aceita nada disso: “Essa ideia de que vamos apenas aumentar e replicar os grandes modelos de linguagem atuais e, eventualmente, a IA em nível humano surgirá… Eu não acredito nisso, nem por um segundo”. Esses grandes modelos apenas manipulam palavras e imagens, diz ele. Eles não têm experiência empírica do mundo.
LeCun é igualmente cético em relação ao learning reinforcement, porque requer grandes quantidades de dados para treinar modelos para realizar até mesmo tarefas simples. “Acho que isso não tem chance alguma de funcionar”, diz LeCun.
David Silver, da DeepMind, que liderou o trabalho no AlphaZero e é um grande defensor do learning reinforcement, discorda dessa avaliação, mas dá as boas-vindas à visão geral de LeCun. “É uma nova proposta empolgante de como um modelo mundial pode ser representado e aprendido”.
Melanie Mitchell, investigadora de IA do Santa Fe Institute (EUA), também está animada para ver uma abordagem totalmente nova. “Nós realmente não imaginamos que isso viria da comunidade de deep learning”, diz. Ela também concorda com LeCun que grandes modelos de linguagem não podem ser toda a história. “Eles não têm memória e modelos internos do mundo que são importantes”, diz ela.
No entanto, Natasha Jaques, investigadora do Google Brain, acha que os modelos de linguagem ainda devem desempenhar um papel. É estranho que a linguagem esteja totalmente ausente das propostas de LeCun, refere: “Sabemos que grandes modelos de linguagem são super eficazes e incorporam um monte de conhecimento humano”.
Jaques, que trabalha em maneiras de fazer com que as IAs partilhem informações e habilidades entre si, ressalta que os humanos não precisam ter experiência direta de algo para aprender sobre isso. Podemos mudar nosso comportamento simplesmente ouvindo algo, como não tocar em uma panela quente. “Como atualizo esse modelo de mundo que Yann está propondo se eu não tenho linguagem?” ela pergunta.
Há outra questão também. Se funcionassem, as ideias de LeCun criariam uma tecnologia poderosa que poderia ser tão revolucionária quanto a internet. E, no entanto, a sua proposta não discute como o comportamento e as motivações do seu modelo seriam controlados, ou quem os controlaria. Esta é uma omissão estranha, diz Abhishek Gupta, fundador do Montreal AI Ethics Institute e especialista responsável em IA no Boston Consulting Group.
“Devemos pensar mais sobre o que é preciso para que a IA funcione bem em uma sociedade, e isso requer pensar sobre comportamento ético, entre outras coisas”, diz Gupta.
No entanto, Jaques observa que as propostas de LeCun ainda são muito mais ideias do que aplicações práticas. Mitchell diz o mesmo: “Certamente há pouco risco de isso se tornar uma inteligência de nível humano em breve”.
LeCun concordaria. O seu objetivo é semear as sementes de uma nova abordagem na esperança de que outros a construam. “Isso é algo que vai exigir muito esforço de muitas pessoas”, refere. “Estou a divulgar isso porque acho que, no final das contas, esse é o caminho a seguir.” Se nada mais, quer convencer as pessoas de que grandes modelos de linguagem e learning reinforcement não são os únicos caminhos a seguir.
“Eu odeio ver as pessoas a desperdiçar o tempo delas”, conclui.