A corrida para entender o mundo emocionante e perigoso dos modelos de linguagem para Inteligência Artificial
Inteligência artificial

A corrida para entender o mundo emocionante e perigoso dos modelos de linguagem para Inteligência Artificial

Centenas de cientistas em todo o mundo estão a trabalhar juntos para compreender uma das tecnologias emergentes mais poderosas antes que seja tarde demais.

A 18 de maio, o CEO do Google, Sundar Pichai, anunciou uma nova ferramenta impressionante: um sistema de Inteligência Artificial (IA) chamado LaMDA que pode conversar com os utilizadores sobre qualquer assunto.

Para começar, o Google planea integrar o LaMDA no seu portal de busca principal, o seu assistente de voz, e Workplace, a sua coleção de software de trabalho em nuvem que inclui Gmail, Docs e Drive. Mas o objetivo final, disse Pichai, é criar uma interface de conversação que permita às pessoas resgatar qualquer tipo de informação — seja em texto, visual ou em áudio — em todos os produtos do Google apenas fazendo uma pergunta.

O lançamento do LaMDA sinaliza mais uma maneira pela qual as tecnologias de linguagem estão emaranhadas no nosso dia a dia. Mas a apresentação chamativa do Google contradiz o debate ético que agora envolve esses sistemas de ponta. O LaMDA é conhecido como um grande modelo de linguagem (LLM, em inglês) — um algoritmo de deep learning treinado em enormes quantidades de dados de texto.

Estudos já mostraram como ideias racistas, sexistas e abusivas estão embutidas nesses modelos. Associam categorias como médicos com homens e enfermeiras com mulheres; boas palavras com brancos e más palavras com negros. Use determinadas instruções para vê-los começar a encorajar coisas como genocídio, automutilação e abuso sexual infantil. Por causa do seu tamanho, têm uma pegada de carbono chocantemente alta. Pela a sua fluência, facilmente confundem as pessoas fazendo-as pensar que um humano quem escreveu as respostas, o que os especialistas alertam que pode viabilizar a produção em massa de desinformação.

Em dezembro, o Google afastou a sua colíder da equipe de ética em IA, Timnit Gebru, depois desta se ter recusado a retratar um artigo que alertava muitos desses pontos. Poucos meses depois, após denúncia em larga escala do que, numa carta aberta, funcionários do Google chamaram de “censura de pesquisa sem precedentes”, a co-autora de Gebru e colíder, Margaret Mitchell, também foi demitida.

Não é apenas o Google que está a implementar essa tecnologia. Os modelos de linguagem de maior visibilidade até agora foram GPT-2 e GPT-3 da OpenAI, que emitem trechos de texto notavelmente convincentes e podem até mesmo ser reprogramados para terminar composições musicais e código de computador. A Microsoft agora tem direito de uso exclusivo sobre a GPT-3 para incorporar em produtos ainda não anunciados. O Facebook desenvolveu os seus próprios modelos de linguagem para tradução e moderação de conteúdo. E as startups estão a criar dezenas de produtos e serviços baseados nos modelos dos gigantes da tecnologia. Em breve, todas as nossas interações digitais — quando enviarmos e-mail, pesquisarmos ou postarmos nas redes sociais — serão filtradas por meio desses modelos.

Infelizmente, poucas pesquisas estão a ser feitas para entender como as falhas dessa tecnologia podem afetar as pessoas no mundo real, ou para descobrir como projetar grandes modelos de linguagem melhores que mitiguem esses desafios. Como o Google ressaltou na sua postura diante de Gebru e Mitchell, as poucas empresas ricas o suficiente para treinar e manter esses modelos de linguagem têm grande interesse financeiro em recusar-se a examiná-los cuidadosamente. Por outras palavras, os grandes modelos de linguagem estão cada vez mais integrados à infraestrutura linguística da Internet sobre bases científicas instáveis.

Mais de 500 investigadores em todo o mundo estão agora numa corrida para aprender mais sobre as capacidades e limitações desses modelos. Trabalhando juntos no projeto BigScience liderado por Huggingface, uma startup de enfoque “ciência aberta” para a compreensão de Processamento de Linguagem Natural (PLN), procuram construir um grande modelo de linguagem de código aberto que irá servir como um recurso partilhado para a comunidade científica. O objetivo é gerar o máximo de conhecimento possível concentrado num único ano. A questão central: como e quando os grandes modelos de linguagem devem ser desenvolvidos e implantados para aproveitar os seus benefícios sem as suas consequências prejudiciais?

“Não podemos parar essa loucura em torno dos grandes modelos de linguagem, onde todos querem treiná-los”, diz Thomas Wolf, o diretor de ciências da Huggingface, que co-liderou a iniciativa. “Mas o que podemos fazer é tentar empurrar isso numa direção que no final seja mais benéfica”.

Papagaios estocásticos

No mesmo mês em que a Big Science começou as suas atividades, uma startup chamada Cohere saiu discretamente das sombras. Iniciada por antigos investigadores do Google, ela promete trazer grandes modelos de linguagem para qualquer empresa que queira um — com uma única linha de código. Desenvolveu uma técnica para treinar e hospedar o seu próprio modelo com as sobras ociosas de recursos computacionais num centro de processamento de dados, o que reduz os custos de aluguer do espaço necessário na nuvem para manutenção e implantação.

Entre os seus primeiros clientes está a startup Ada Support, uma plataforma para construção de chatbots de atendimento ao consumidor sem código, que por sua vez atende empresas como Facebook e Zoom. E a lista de investidores da Cohere inclui alguns dos maiores nomes da área: o pioneiro da visão computacional Fei-Fei Li, o vencedor do Prémio Turing, Geoffrey Hinton, e o chefe de IA da Apple, Ian Goodfellow.

A Cohere é uma das várias startups e iniciativas que agora procuram trazer grandes modelos de linguagem para vários setores. Há também Aleph Alpha, uma startup com sede na Alemanha que busca construir uma GPT-3 alemã; um empreendimento anónimo iniciado por vários ex-investigadores da OpenAI; e a iniciativa de código aberto Eleuther, que lançou recentemente o GPT-Neo, uma reprodução gratuita (e um pouco menos poderosa) da GPT-3.

Mas é a lacuna entre o que os grandes modelos de linguagem são e o que aspiram ser que preocupa um número crescente de investigadores. Eles são efetivamente as tecnologias de preenchimento automático mais poderosas do mundo. Ao serem abastecidos com milhões de frases, parágrafos e até mesmo amostras de diálogo, aprendem os padrões estatísticos que regem como cada um desses elementos deve ser montado numa ordem adequada. Isso significa que os grandes modelos de linguagem podem aprimorar certas atividades: por exemplo, são bons para criar chatbots mais interativos e fluidos de conversação que seguem um roteiro bem estabelecido. Mas não entendem realmente o que estão a ler ou dizer. Além disso, muitos dos recursos mais avançados desses modelos atualmente estão disponíveis apenas em inglês.

Entre outras coisas, é sobre isso que Gebru, Mitchell e cinco outros cientistas alertaram no seu artigo, que chama os grandes modelos de linguagem de “papagaios estocásticos”. “A tecnologia da linguagem pode ser muito, muito útil quando tem a visão, a localização e o enquadramento adequados”, diz Emily Bender, professora de linguística da Universidade de Washington e uma das co-autoras do artigo. Mas a natureza de propósito geral dos grandes modelos de linguagem — e a capacidade de persuasão do seu mimetismo — incentiva as empresas a usá-los em áreas para as quais não estão necessariamente preparadas.

Numa palestra recente numa das maiores conferências de IA, Gebru vinculou essa implantação apressada de grandes modelos de linguagem às consequências que ela experimentou na sua própria vida. Gebru nasceu e foi criada na Etiópia, onde uma guerra devastou a região mais ao norte de Tigray. A Etiópia também é um país onde são falados 86 idiomas, quase todos inexistentes nas tecnologias linguísticas convencionais.

Apesar dos grandes modelos de linguagem terem essas deficiências linguísticas, o Facebook depende muito deles para automatizar globalmente a sua moderação de conteúdo. Quando a guerra em Tigray estourou pela primeira vez em novembro, Gebru viu a plataforma ter dificuldades para controlar a enxurrada de desinformações. Isso é emblemático de um padrão persistente que os investigadores observaram na moderação de conteúdo. Comunidades que falam idiomas não priorizados pelo Vale do Silício enfrentam ambientes digitais mais hostis.

Gebru apontou que os danos não param por aí. Quando notícias falsas, discurso de ódio e até ameaças de morte não são moderados, são colecionados como dados de treino para construir a próxima geração de grandes modelos de linguagem. E esses modelos, repetindo aquilo em que foram treinados, assim como papagaios, acabam regurgitando esses padrões linguísticos tóxicos na internet.

Em muitos casos, os investigadores não investigaram a fundo o suficiente para saber como essa toxicidade pode se manifestar em aplicações posteriores. Mas existem alguns estudos sobre isso. No seu livro “Algorithms of Oppression” (em tradução livre, “Algoritmos da Opressão”) de 2018, Safiya Noble, professora associada de informação e estudos afro-americanos na Universidade da Califórnia, em Los Angeles, documentou como preconceitos embutidos na pesquisa do Google perpetuam o racismo e, em casos extremos, talvez até motivem a violência racial.

“As consequências são muito graves e significativas”, alerta. O Google não é apenas o principal portal de conhecimento para o cidadão comum. Também fornece infraestrutura de informações para instituições, universidades e governos estaduais e federais.

O Google já usa um grande modelo de linguagem para otimizar alguns dos seus resultados de busca. Com o seu último anúncio do LaMDA e uma recente proposta publicada num artigo de pré-impressão, a empresa deixou claro que só aumentará a sua confiança e dependência na tecnologia. Noble teme que isso possa tornar os problemas que descobriu ainda piores: “O facto de a equipe de ética da IA de o Google ter sido demitida por levantar questões muito importantes sobre os padrões racistas e sexistas de discriminação embutidos em grandes modelos de linguagem deveria ter sido um sinal de alerta”.

BigScience

O projeto BigScience começou como resposta direta à crescente necessidade de escrutínio científico de grandes modelos de linguagem. Ao observar a rápida proliferação da tecnologia e a tentativa do Google de censurar Gebru e Mitchell, Wolf e vários colegas perceberam que era hora de a comunidade de pesquisa resolver o problema por conta própria.

Inspirados por colaborações científicas abertas como o CERN em física de partículas, conceberam uma ideia para um grande modelo de linguagem de código aberto que poderia ser usado para conduzir pesquisas críticas independentemente de qualquer empresa. Em abril deste ano, o grupo recebeu uma concessão para construí-lo usando o supercomputador do governo francês.

Em empresas de tecnologia, os grandes modelos de linguagem geralmente são construídos por apenas meia dúzia de pessoas que possuem conhecimentos técnicos fundamentais. O BigScience queria trazer centenas de investigadores de uma ampla gama de países e disciplinas para participar de um processo verdadeiramente colaborativo de construção de modelos. Wolf, que é francês, abordou primeiro a comunidade francesa de PNL. A partir daí, a iniciativa tornou-se uma grande operação global que abrange mais de 500 pessoas.

O projeto está agora livremente organizado numa dúzia de grupos de trabalho e contando, cada um focado em diferentes aspectos do desenvolvimento e investigação do modelo. Um grupo medirá o impacto ambiental do modelo, incluindo a pegada de carbono do treinamento e da operação do grande modelo de linguagem, levando em consideração os custos do ciclo de vida do supercomputador. Outro se concentrará no desenvolvimento de maneiras responsáveis ​​de obter os dados de treinamento — procurando alternativas para simplesmente extrair dados da web, como transcrever arquivos históricos de rádio ou podcasts. O objetivo aqui é evitar linguagem tóxica e coleta não consensual de informações privadas.

Outros grupos de trabalho são dedicados a desenvolver e avaliar o aspecto multilíngue do modelo. Para começar, o BigScience selecionou oito idiomas ou famílias de idiomas, incluindo inglês, chinês, árabe, índico (com hindi e urdu) e bantu (com suaíli). O plano é trabalhar em estreita colaboração com cada comunidade linguística para mapear o máximo possível dos seus dialetos regionais e garantir que as suas normas distintas de privacidade de dados sejam respeitadas. “Queremos que as pessoas opinem sobre como os seus dados são usados”, diz Yacine Jernite, investigador do Huggingface.

A questão não é construir um grande modelo de linguagem comercialmente viável para competir com GPT-3 ou LaMDA. O modelo será muito grande e muito lento para ser útil às empresas, diz Karën Fort, professora associada da Sorbonne. Em vez disso, o recurso está sendo projetado exclusivamente para pesquisa. Cada unidade de observação e cada decisão de modelagem estão a ser cuidadosamente e publicamente documentadas, então é mais fácil analisar como todas as partes afetam os resultados do modelo. “Não se trata apenas de entregar o produto final”, diz Angela Fan, investigadora do Facebook. “Imaginamos cada peça dele como um ponto de entrega, como um objeto”.

O projeto é, sem dúvida, ambicioso — mais globalmente expansivo e colaborativo do que qualquer outra comunidade de IA já conhecida. A logística de coordenar tantos investigadores é em si um desafio. (Na verdade, também existe um grupo de trabalho para isso.) Além do mais, cada investigador contribui como voluntário. A concessão do governo francês cobre apenas recursos computacionais, não humanos.

Mas os investigadores dizem que a necessidade partilhada que uniu a comunidade estimulou um nível impressionante de energia e ímpeto. Muitos estão otimistas de que até o final do projeto, que será executado até maio do próximo ano, terão produzido não apenas estudos mais profundos sobre as limitações dos grandes modelos de linguagem, mas também melhores ferramentas e práticas para construí-los e implantá-los de forma responsável.

Os organizadores esperam que isso inspire mais pessoas dentro da indústria a incorporar essas práticas em sua própria estratégia de grandes modelos de linguagem, embora sejam os primeiros a admitir que estão sendo idealistas. Na verdade, o grande número de investigadores envolvidos, incluindo muitos gigantes da tecnologia, ajudará a estabelecer novas normas dentro da comunidade da PNL.

Em alguns aspectos, as normas já mudaram. Em resposta às conversas sobre a demissão de Gebru e Mitchell, a Cohere ouviu de vários dos seus clientes que eles estavam preocupados com a segurança da tecnologia. No seu site, incluíram uma página com o compromisso de investir continuamente em pesquisas técnicas e não técnicas para mitigar os possíveis danos do seu modelo. Diz que também vai montar um conselho consultivo formado por especialistas externos para ajudá-la a criar políticas sobre o uso permitido de suas tecnologias.

“O PNL está em um momento decisivo”, diz Fort. É por isso que o BigScience é emocionante. Isso permite que a comunidade impulsione a pesquisa e forneça uma alternativa promissora ao status quo dentro da indústria: “Diz: ‘Vamos dar outro passo. Vamos fazer isso juntos — descobrir todas as maneiras e todas as coisas que podemos fazer para ajudar a sociedade’.”

“Quero que o PNL ajude as pessoas”, diz ela, “e não que as rebaixe”.

Tópicos