A revolução da IA moderna começou durante um obscuro concurso de pesquisa. Era 2012, o terceiro ano da competição anual ImageNet, que desafiava equipes a construírem sistemas de visão computacional que poderiam reconhecer 1.000 objetos, de animais a paisagens e pessoas.
Nos primeiros dois anos, as melhores equipas não conseguiram atingir nem mesmo 75% de precisão. Mas no terceiro ano, um grupo de três investigadores – um professor e os seus alunos – de repente ultrapassaram este limite. Ganharam a competição por impressionantes 10,8 pontos percentuais. Esse professor foi Geoffrey Hinton, e a técnica que usaram foi chamada de deep learning.
Na verdade, Hinton trabalhava com deep learning desde os anos 1980, mas a sua eficácia era limitada pela falta de dados e poder computacional. A sua crença inabalável na técnica acabou por gerar grandes benefícios. No quarto ano da competição ImageNet, quase todas as equipas estavam a usar o deep learning e a alcançar ganhos de precisão milagrosos. Dentro de pouco tempo, estava a ser aplicado a tarefas além do reconhecimento de imagem, e também numa ampla gama de setores.
No ano passado, pelas suas contribuições fundamentais para a área, Hinton recebeu o Prêmio Turing, junto a outros pioneiros da IA, Yann LeCun e Yoshua Bengio. A 20 de outubro, a MIT Technology Review americana entrevistou Hinton durante a conferência anual “EmTech MIT” sobre o estado atual do campo de Inteligência Artificial e quais deveriam ser os seus próximos passos.
Acredita que o deep learning será o suficiente para imitar toda a inteligência humana. O que lhe dá tanta certeza?
Acredito que o deep learning será capaz de fazer tudo, mas acho que terá que haver alguns avanços conceptuais. Por exemplo, em 2017 Ashish Vaswani et al apresentaram transformadores, que combinavam vetores realmente bons que representam o significado das palavras. Foi um avanço conceitual. Agora estão sendo usados em quase todos os melhores Processamentos de Linguagem Natural (PLN). Vamos precisar de mais inovações como essa.
E se tivermos esses avanços, seremos capazes de aproximar toda a inteligência humana por meio do deep learning?
Sim. Especificamente, os avanços relacionados à maneira como grandes vetores de atividade neuronal implementam algo como a razão. Mas também precisamos de um grande aumento de escala. O cérebro humano tem cerca de 100 trilhões de parâmetros ou sinapses. O que hoje nós consideramos um modelo realmente grande, o GPT-3, tem 175 biliões. É mil vezes menor que o cérebro. O GPT-3 agora pode gerar um texto bastante convincente e ainda é minúsculo em comparação com o cérebro.
Quando diz escala, quer dizer redes neurais maiores, mais dados ou ambos?
Os dois. Há uma espécie de discrepância entre o que acontece na ciência da computação e o que acontece com as pessoas. As pessoas têm uma grande quantidade de parâmetros em comparação com a quantidade de dados que recebem. As redes neurais são surpreendentemente boas para lidar com uma quantidade bastante pequena de dados, com um grande número de parâmetros, mas as pessoas são ainda melhores.
Muitas pessoas na área acreditam que o bom senso é a próxima grande habilidade a ser enfrentada. Concorda?
Eu concordo que isso é uma das coisas mais cruciais. Também acho que o controle motor é muito importante, e redes neurais profundas agora estão a ficar boas nisso. Em particular, alguns trabalhos recentes no Google mostraram que pode fazer um controlo motor preciso e combiná-lo com a linguagem, de modo a que possa abrir uma gaveta e retirar um bloco, e o sistema pode dizer em linguagem natural o que está a acontecer.
Para tecnologias como GPT-3, que gera textos maravilhosos, está claro que o mecanismo deve compreender muito para gerar esse texto, mas não está claro o bastante o quanto entende. Mas se algo abre a gaveta e tira um bloco e diz: “Acabei de abrir uma gaveta e tirei um bloco”, é difícil dizer que não entende o que está fazendo.
O campo da IA sempre considerou o cérebro humano a sua maior fonte de inspiração, e diferentes enfoques da IA resultaram de diferentes teorias da ciência cognitiva. Acredita que o cérebro realmente constrói representações do mundo externo para entendê-lo ou é apenas uma maneira prática de pensar sobre isso?
Há muito tempo, no campo das ciências cognitivas, houve um debate entre duas escolas de pensamento. Uma era liderada por Stephen Kosslyn, e este acreditava que quando se manipulam imagens visuais na mente, tem uma matriz de pixels e que os move em redor. A outra escola de pensamento estava mais de acordo com a IA convencional. Dizia: “Não, não, isso é um absurdo. São descrições hierárquicas e estruturais. Tem uma estrutura simbólica na sua mente, e é isso que você manipula”.
Penso que os dois estavam a cometer o mesmo erro. Kosslyn pensou que manipulamos pixels porque as imagens externas são feitas de pixels, e essa é uma representação que entendemos. A outra escola pensava que manipulamos símbolos porque também representamos coisas com símbolos, e essa é uma representação que entendemos. Eu acho que isso está igualmente errado. O que está dentro do cérebro são esses grandes vetores de atividade neural.
Existem algumas pessoas que ainda acreditam que a representação simbólica é um dos enfoques mais corretos para a IA.
Absolutamente. Tenho bons amigos como Hector Levesque, que realmente acredita na abordagem simbólica e tem feito um ótimo trabalho nisso. Eu discordo dele, mas a abordagem simbólica é uma coisa perfeitamente razoável de se tentar. Mas o meu palpite é que, no final, vamos perceber que os símbolos simplesmente existem lá fora, no mundo externo, e fazemos operações internas em grandes vetores.
Qual acredita ser a sua visão mais controvérsia sobre o futuro da IA?
Bem, o meu problema é que tenho esses pontos de vista controversos e, cinco anos depois, são convencionais. Muitas das minhas visões contrárias da década de 1980 agora são amplamente aceitas. É muito difícil agora encontrar pessoas que discordem delas. Então, sim, fui meio prejudicado por minhas visões contrárias.
Artigo de Karen Hao, da MIT Technology Review (EUA) (adaptado).