Os seres humanos são complexos. As formas como comunicamos são multifacetadas, e os psicólogos criaram vários tipos de testes para medir a nossa capacidade de dar significado e compreensão das interações uns com os outros.
Os modelos de IA estão a tornar-se melhores nestes testes. Uma nova pesquisa publicada na Nature Human Behavior descobriu que alguns grandes modelos de linguagem (LLMs) têm desempenho tão bom quanto, e em alguns casos melhor do que, os humanos quando confrontados com tarefas concebidas para testar a capacidade de acompanhar os estados mentais das pessoas, conhecida como “teoria da mente”.
Isto não significa que os sistemas de IA realmente consigam entender como nos estamos a sentir. Mas demonstra que estes modelos estão a realizar cada vez melhor em experiências destinadas a avaliar habilidades que os psicólogos consideram ser únicas nos humanos. Para compreender melhor os processos por trás dos sucessos e falhas dos LLMs nestas tarefas, os investigadores pretendiam aplicar a mesma abordagem sistemática que usam para testar a teoria da mente em humanos.
Na teoria, quanto melhor os modelos de IA são a imitar os humanos, mais úteis e empáticos podem parecer nas suas interações conosco. Tanto a OpenAI como o Google anunciaram assistentes de IA superpotentes recentemente; o GPT-4o e o Astra são projetados para oferecer respostas muito mais suaves e naturalistas do que os seus antecessores. Mas devemos evitar cair na armadilha de acreditar que as suas habilidades são humanas, mesmo que pareçam ser.
“Temos uma tendência natural para atribuir estados mentais, mente e intencionalidade a entidades que não têm mente”, diz Cristina Becchio, professora de neurociência no Centro Médico Universitário de Hamburgo-Eppendorf, que trabalhou na pesquisa. “Existe o risco de atribuir uma teoria da mente a grandes modelos de linguagem.”
A teoria da mente é um marco da inteligência emocional e social que nos permite inferir as intenções das pessoas e interagir e simpatizar umas com as outras. A maioria das crianças adquire estas habilidades entre os três e os cinco anos de idade.
Os investigadores testaram duas famílias de grandes modelos de linguagem, o GPT-3.5 e o GPT-4 da OpenAI, e três versões do Llama da Meta, em tarefas concebidas para testar a teoria da mente em humanos, incluindo a identificação de crenças falsas, o reconhecimento de faux pas e a compreensão do que está implícito em vez de dito diretamente. Também testaram 1.907 participantes humanos para comparar os conjuntos de pontuações.
A equipa realizou cinco tipos de testes. O primeiro, a tarefa de sugestão, é feito para medir a capacidade de alguém inferir as verdadeiras intenções de outra pessoa através de comentários indiretos. O segundo, a tarefa de crença falsa, avalia se alguém pode inferir que outra pessoa poderia razoavelmente esperar acreditar em algo que sabemos não ser o caso. Outro teste mediu a capacidade de reconhecer quando alguém comete um faux pas, enquanto um quarto teste consistiu em contar histórias estranhas, em que um protagonista faz algo incomum, para avaliar se alguém pode explicar o contraste entre o que foi dito e o que foi realmente querido. Incluíram também um teste para verificar se as pessoas podem compreender ironia.
Os modelos de IA foram submetidos a cada teste 15 vezes em conversas separadas, para que tratasse cada pedido de forma independente, e as suas respostas foram avaliadas da mesma forma que as dos humanos. Em seguida, os investigadores testaram os voluntários humanos, e os dois conjuntos de pontuações foram comparados.
Ambas as versões do GPT apresentaram desempenho ao nível médio ou, às vezes, acima da média humana em tarefas que envolviam pedidos indiretos, desvio de atenção e crenças falsas, enquanto o GPT-4 superou os humanos nos testes de ironia, sugestão e histórias estranhas. As três versões do Llama 2, por outro lado, apresentaram desempenho abaixo da média humana.
No entanto, o Llama 2, o maior dos três modelos da Meta testados, superou os humanos quando se tratou de reconhecer cenários de faux pas, enquanto o GPT forneceu consistentemente respostas incorretas. Os autores acreditam que isso se deve à aversão geral do GPT em gerar conclusões sobre opiniões, já que os modelos frequentemente responderam que não havia informações suficientes para eles responderem de uma forma ou de outra.
“Estes modelos não estão a demonstrar a teoria da mente de um humano, com certeza”, diz ele. “Mas o que mostramos é que há uma competência aqui para chegar a inferências mentalísticas e raciocinar sobre as mentes dos personagens ou pessoas.”
Uma razão pela qual os LLMs podem ter tido desempenho tão bom quanto tiveram é que esses testes psicológicos são tão estabelecidos e, portanto, provavelmente foram incluídos nos seus dados de treino, diz Maarten Sap, professor assistente na Universidade Carnegie Mellon, que não participou da pesquisa. “É realmente importante reconhecer que quando você administra um teste de crença falsa a uma criança, ela provavelmente nunca viu esse teste exato antes, mas os modelos de linguagem podem ter visto”, diz ele.
Em última análise, ainda não entendemos completamente como os LLMs funcionam. Pesquisas como esta podem ajudar a aprofundar o nosso entendimento do que esses modelos podem e não podem fazer, diz Tomer Ullman, cientista cognitivo da Universidade Harvard, que não trabalhou no projeto. Mas é importante ter em mente o que realmente estamos a medir quando aplicamos esses testes aos LLMs. Se uma IA supera um humano num teste concebido para medir a teoria da mente, isso não significa que a IA tenha teoria da mente.
“Não sou contra benchmarks, mas faço parte de um grupo de pessoas preocupadas que estamos a atingir o fim da utilidade da maneira como temos usado benchmarks até agora”, diz Ullman. “No entanto, como esta coisa aprendeu a passar pelo benchmark, não é — eu não acho — de uma maneira semelhante à humana.”