Um grupo de mais de 1.000 investigadores de Inteligência Artificial criou um modelo de linguagem multilíngue maior que o GPT-3 e está a distribuí-lo gratuitamente.
Dentro do centro de supercomputação do Centro Nacional de Pesquisa Científica (CNRS), nos arredores de Paris, várias fileiras do que parecem ser frigoríficos pretos zumbem a 100 decibéis ensurdecedores. Quando se trata de Inteligência Artificial (IA), isso é o mais próximo de um show de rock que se pode chegar.
Fazem parte de um supercomputador que passou 117 dias a preparar um novo modelo de linguagem grande (LLM) chamado BLOOM. Os criadores deste novo modelo esperam que represente uma mudança radical da maneira como a IA é desenvolvida normalmente.
Ao contrário de outros modelos de linguagem grandes mais famosos, como o GPT-3 do OpenAI e o LaMDA do Google, o BLOOM (que significa BigScience Large Open-science Open-access Multilingual Language Model) foi projetado para ser o mais transparente possível, com investigadores a partilharem detalhes sobre os dados em que foi treinado, os desafios no seu desenvolvimento e a forma como avaliaram o seu desempenho. A OpenAI e o Google não partilharam o seu código ou disponibilizaram os seus modelos ao público, e investigadores externos têm muito pouco conhecimento de como esses modelos são treinados. O BLOOM foi criado no ano passado por mais de 1.000 investigadores voluntários num projeto chamado BigScience, que foi coordenado pela startup de IA, a Hugging Face,usando financiamento do governo francês. Foi lançado oficialmente a 12 de julho. Os investigadores esperam que o desenvolvimento de um LLM de acesso aberto que funcione tão bem quanto outros modelos líderes leve a mudanças duradouras na cultura do desenvolvimento de IA e ajude a democratizar o acesso à tecnologia de ponta para investigadores em todo o mundo.
A facilidade de acesso do modelo é o seu maior atrativo. Desde que foi publicado, qualquer um pode baixá-lo e usá-lo gratuitamente no site da Hugging Face. Os utilizadores podem escolher entre uma variedade de idiomas e enviar solicitações para que o BLOOM realize tarefas como escrever receitas ou poemas, traduzir ou resumir textos ou escrever código de programação. Os desenvolvedores de IA podem usar o modelo como base para criar as suas próprias aplicações.
Com 176 mil milhões de parâmetros (variáveis que determinam como os dados de input são transformados no output desejado), é maior que o GPT-3 de 175 mil milhões de parâmetros da OpenAI, e a BigScience afirma que oferece níveis semelhantes de precisão e toxicidade como outros modelos do mesmo tamanho. Para idiomas como espanhol e árabe, o BLOOM é o primeiro grande modelo desse tamanho.
Mas mesmo os criadores do modelo alertam que este não resolverá os problemas profundamente arraigados em torno dos grandes modelos de linguagem, incluindo a falta de políticas adequadas sobre governança e privacidade de dados e a tendência dos algoritmos de cuspir conteúdo tóxico, como linguagem racista ou sexista.
Ao ar livre
Grandes modelos de linguagem são algoritmos de deep learning treinados em grandes quantidades de dados. São uma das áreas mais quentes da pesquisa de IA. Modelos poderosos como GPT-3 e LaMDA, que produzem texto que parece ter sido escrito por um humano, têm um enorme potencial para mudar a maneira como processamos informações online. Podem ser usados como chatbots ou para pesquisar informações, moderar conteúdo online, resumir livros ou gerar passagens de texto totalmente novas com base em prompts. Mas eles também estão cheios de problemas. Basta um pequeno estímulo para que esses modelos comecem a produzir conteúdo nocivo.
Os modelos também são extremamente exclusivos. Precisam ser treinados em grandes quantidades de dados usando muito poder computacional, o que é caro, e algo que apenas grandes empresas de tecnologia (e principalmente americanas) como o Google podem pagar.
A maioria das grandes empresas de tecnologia que desenvolvem LLMs de ponta restringe o seu uso por pessoas de fora e não divulgam informações sobre o funcionamento interno dos seus modelos. Isso torna difícil responsabilizá-las. É esse cenário que os investigadores que trabalham no BLOOM esperam mudar.
A Meta já deu alguns passos para longe do status quo: em maio de 2022, a empresa lançou seu próprio modelo de linguagem grande, Open Pretrained Transformer (OPT-175B), juntamente com o seu código e um diário de bordo detalhando como o modelo foi treinado.
Mas o modelo da Meta está disponível apenas mediante solicitação e possui uma licença que limita seu uso para fins de pesquisa. A Hugging Face vai um passo além. As reuniões que detalham o seu trabalho ao longo do ano passado foram gravadas e enviadas on-line, e qualquer pessoa pode baixar o modelo gratuitamente e usá-lo para pesquisas ou para construir aplicações comerciais.
Um grande foco da BigScience foi incorporar considerações éticas no modelo desde o início, em vez de lidar com elas posteriormente. Os LLMs são treinados em toneladas de dados recolhidos da Internet. Isso pode ser problemático, porque esses conjuntos de dados incluem muitas informações pessoais e geralmente refletem vieses perigosos. Para resolver esta questão, o grupo desenvolveu estruturas de governança de dados especificamente para LLMs cujo objetivo é deixar mais claro quais dados estão a ser usados e a quem pertencem. Como resultado, foram obtidos diferentes conjuntos de dados de todo o mundo que estão disponíveis online, mas não prontos para serem utilizados. O grupo também está a lançar uma nova Licença de IA Responsável, que funciona como uma espécie de acordo de termos de serviço. Foi projetada para impedir o uso do BLOOM em setores de alto risco, como segurança pública ou assistência médica, ou para prejudicar, enganar, explorar ou fazer-se se passar por pessoas. A licença é uma experiência de auto-regulação de LLMs até que as leis se atualizem para este novo cenário, diz Danish Contractor, investigador de IA que se voluntariou no projeto e co-criou a licença. No entanto, não há nada que realmente impeça alguém de abusar do BLOOM.
O projeto teve as suas próprias diretrizes éticas desde o início, que funcionaram como princípios orientadores para o desenvolvimento do modelo, diz Giada Pistilli, especialista em ética da Hugging Face, que redigiu o código de ética da BLOOM. Por exemplo, houve uma ênfase no recrutamento de voluntários de diversas origens e locais, garantindo que pessoas de fora possam reproduzir facilmente as descobertas do projeto e divulgando seus resultados abertamente.
Todos a bordo
Essa filosofia se traduz em uma grande diferença entre o BLOOM e outros LLMs disponíveis hoje: o grande número de linguagens humanas que o modelo pode entender. Pode lidar com 46 deles, incluindo francês, vietnamita, mandarim, indonésio, catalão, 13 idiomas índicos (como hindi) e 20 idiomas africanos. Pouco mais de 30% dos seus dados de formação avam em inglês. O modelo também entende 13 linguagens de programação.
Isso é altamente incomum no mundo dos grandes modelos de linguagem, onde o inglês domina. Essa é outra consequência do facto de que os LLMs são construídos a partir da extração de dados da internet: o inglês é o idioma mais usado online.
A razão pela qual o BLOOM conseguiu melhorar essa situação é que a equipe reuniu voluntários de todo o mundo para construir conjuntos de dados adequados em outros idiomas, mesmo que não estivessem tão bem representados online. Por exemplo, a Hugging Face organizou workshops com investigadores africanos de IA para tentar encontrar conjuntos de dados, como registos de uso por autoridades locais ou meios académicos, que poderiam ser usados para treinar o modelo em línguas africanas, diz Chris Emezue, estagiário da Hugging Face e pesquisador da Masakhane, uma organização que trabalha no processamento de linguagem natural para línguas africanas.
Incluir tantos idiomas diferentes pode ser uma grande ajuda para investigadores de IA em países mais pobres, que muitas vezes lutam para obter acesso ao processamento de linguagem natural porque usa muito poder de computação caro. O BLOOM permite que eles ignorem a parte cara de desenvolver e treinar os modelos para se concentrar na criação de aplicativos e no refinamento dos modelos para tarefas em seus idiomas nativos.
“Incluir as línguas africanas no futuro do [processamento de linguagem natural] … é um passo muito bom e importante fazer isso durante o treinamento de modelos de linguagem”, refere Emezue.
Use com moderação
A BigScience fez um trabalho “fenomenal” ao construir uma comunidade em torno do BLOOM, e a sua abordagem de envolver ética e governança desde o início é sensata, diz Percy Liang, diretor do Centro de Pesquisa em Modelos de Fundação de Stanford (EUA).
No entanto, Liang não acredita que isso levará a mudanças significativas no desenvolvimento do LLM. “A OpenAI, Google e Microsoft ainda se movem com muita rapidez”, diz ele.
No final das contas, o BLOOM ainda é um grande modelo de linguagem e ainda tem todas as falhas e riscos associados. Empresas como a OpenAI não divulgaram os seus modelos ou códigos para o público porque, argumentam, a linguagem sexista e racista que foi usada os torna muito perigosos para serem usados dessa maneira.
O BLOOM também provavelmente incorporará imprecisões e linguagem tendenciosa, mas como tudo sobre o modelo está aberto, as pessoas poderão analisar o que é bom e o que é ruim sobre o modelo, diz Margaret Mitchell, pesquisadora de IA e eticista da Hugging Face.
A maior contribuição da BigScience para a IA pode acabar não sendo o próprio BLOOM, mas os inúmeros projetos de pesquisa derivados nos quais os seus voluntários estão envolvidos. Por exemplo, esses projetos podem reforçar as referências de privacidade do modelo e encontrar maneiras de usar a tecnologia em diferentes campos, como a pesquisa biomédica.
“Um novo modelo de grande linguagem não vai mudar o curso da história”, diz Teven Le Scao, pesquisador da Hugging Face que co-liderou o treinamento da BLOOM. “Mas ter um bom modelo de linguagem aberta sobre o qual as pessoas possam realmente pesquisar tem um forte impacto a longo prazo”.
Quando se trata dos danos potenciais dos LLMs, “a caixa de Pandora já está aberta”, diz Le Scao. “O melhor que você pode fazer neste caso é criar as melhores condições possíveis para os investigadores estudá-los”.