Em 1998, alguns alunos de graduação de Stanford publicaram um artigo a descrever um novo tipo de mecanismo de busca: “Apresentamos o Google, um protótipo de um mecanismo de busca em grande escala que faz uso intenso da estrutura presente no hipertexto. O Google foi projetado para rastrear e indexar a web de forma eficiente e produzir resultados de pesquisa muito mais satisfatórios do que os sistemas existentes”.
A principal inovação foi um algoritmo chamado PageRank (PR), que classificou os resultados de pesquisa calculando a relevância deles para a consulta de um utilizador com base nos seus links para outras páginas na web. Graças ao PageRank, o Google tornou-se a porta de entrada para a internet, e Sergey Brin e Larry Page construíram uma das maiores empresas do mundo.
Agora, uma equipa de investigadores do Google publicou uma proposta para um redesenho radical que descarta a abordagem de classificação e a substitui por um único grande modelo de linguagem de Inteligência Artificial (IA) — uma versão futura do BERT ou GPT-3. A ideia é que, em vez de buscar informações numa vasta lista de páginas da web, os utilizadores façam perguntas e tenham um modelo de linguagem treinado nessas extensões de páginas que respondam às dúvidas diretamente. A abordagem pode mudar não apenas a forma como os mecanismos de pesquisa funcionam, mas como interagimos com eles.
Muitos problemas com os modelos de linguagem existentes precisarão ser corrigidos primeiro. Para começar, essas IAs às vezes podem gerar respostas tendenciosas e tóxicas a questões — um problema que investigadores do Google e de outros lugares apontaram.
Repensando o PageRank (PR)
Os mecanismos de pesquisa tornaram-se mais rápidos e precisos, mesmo com a explosão de tamanho da web. A IA agora é usada para classificar os resultados, e o Google usa o BERT para entender melhor as consultas de pesquisa. No entanto, por trás desses ajustes, todos os principais mecanismos de pesquisa ainda funcionam da mesma forma que funcionavam há 20 anos: as páginas da web são indexadas por rastreadores (software que lê a web sem parar e mantém uma lista de tudo o que encontra), os resultados que correspondem à consulta do utilizador são recolhidos a partir deste índice e são então classificados.
“Este projeto de índice recupere-e-depois-classifique resistiu ao teste do tempo e raramente foi desafiado ou seriamente repensado”, escreveram Donald Metzler e os seus colegas do Google Research. (Metzler recusou um pedido de comentário.)
O problema é que mesmo os melhores motores de busca hoje ainda respondem com uma lista de documentos que incluem as informações solicitadas, e não com as informações em si. Os mecanismos de pesquisa também não são bons em responder a perguntas que exigem respostas provenientes de fontes múltiplas. É como se pedisse conselho ao seu médico e recebesse uma lista de artigos para ler em vez de uma resposta direta.
Metzler e os seus colegas estão interessados num mecanismo de busca que se comporte como um especialista humano. Deve produzir respostas em linguagem natural, sintetizadas a partir de mais de um documento, e respaldar suas respostas com referências a evidências de apoio, como os artigos da Wikipédia fazem.
Grandes modelos de linguagem percorrem um longo caminho até lá. Treinado na maior parte da web e em centenas de livros, a GPT-3 extrai informações de várias fontes para responder a perguntas em linguagem natural. O problema é que ela não controla essas fontes e não pode fornecer evidências para as suas respostas. Não há como saber se a GPT-3 está a repetir informações confiáveis ou desinformadas — ou simplesmente a vomitar tolices da sua própria autoria.
Metzler e os seus colegas referem-se aos modelos de linguagem como diletantes — “Parecem que sabem muito, mas o seu conhecimento é superficial”. A solução, afirmam, é construir e treinar futuros BERTs e GPT-3s para manter históricos de onde as suas palavras vêm. Nenhum desses modelos ainda é capaz de fazer isso, mas é possível em princípio, e há trabalhos iniciais nessa direção.
Houve décadas de progresso em diferentes áreas de buscas, desde responder a perguntas até resumir documentos e estruturar informações, diz Ziqi Zhang, da Universidade de Sheffield, no Reino Unido, que estuda a recuperação de informações na web. Mas nenhuma dessas tecnologias revisou as pesquisas porque cada uma delas trata de problemas específicos e não são generalizáveis. A premissa instigante deste artigo é que grandes modelos de linguagem são capazes de fazer todas essas coisas ao mesmo tempo, diz.
Ainda assim, Zhang observa que os modelos de linguagem não funcionam bem com assuntos técnicos ou especializados porque há menos exemplos no texto em que são treinados. “Provavelmente, existem centenas de vezes mais dados sobre e-commerce na web do que dados sobre mecânica quântica”, refere. Os modelos linguísticos atuais também estão voltados para o inglês, o que não atenderia partes da web que não estivessem nessa língua.
Hanna Hajishirzi, que estuda processamento de linguagem natural na Universidade de Washington, gosta bastante dessa nova abordagem, mas adverte que teria problemas na prática. “Acredito que grandes modelos de linguagem são muito importantes e têm potencial para se tornarem o futuro dos mecanismos de busca, mas requerem grande memória e recursos computacionais”, alerta. “Não penso que eles iriam substituir a indexação”.
Ainda assim, Zhang está animado com as possibilidades. “Isso não era possível no passado, porque os grandes modelos de linguagem só ganharam fama recentemente”, diz ele. “Se isso funciona, iriam transformar nossa experiência de busca”.