A empresa espera que o facto de tornar o LLaMA 2 um programa de código aberto lhe possa dar uma vantagem sobre rivais como o OpenAI.
A Meta está a apostar tudo em Inteligência Artificial de código aberto. A empresa divulgou recentemente o LLaMA 2, o seu primeiro modelo de linguagem de grande escala que está disponível para qualquer pessoa usar — gratuitamente
Desde que a OpenAI lançou o seu extremamente popular chatbot de IA ChatGPT, em novembro do ano passado, as empresas de tecnologia têm corrido para lançar modelos na esperança de derrubar a sua supremacia. A Meta se manteve num ritmo lento. Em fevereiro, quando os concorrentes Microsoft e Google anunciaram os seus chatbots de IA, a Meta lançou a primeira versão do LLaMA, menor e restrita a investigadores. Mas espera que o lançamento do LLaMA 2 e a sua disponibilização gratuita para que qualquer pessoa possa criar produtos comerciais com base nele a ajude a recuperar o atraso.
Na verdade, a empresa está a lançar um conjunto de modelos de IA, que inclui versões do LLaMA 2 em diferentes tamanhos, bem como uma versão do modelo de IA que as pessoas podem transformar em um chatbot, semelhante ao ChatGPT. Ao contrário do ChatGPT, que as pessoas podem acessar pelo site da OpenAI, o modelo deve ser baixado dos parceiros de lançamento da Meta, Microsoft Azure, Amazon Web Services e Hugging Face.
“Isso beneficia toda a comunidade de IA e dá às pessoas a opção de usar abordagens de código fechado ou de código aberto para o que for mais adequado à sua aplicação específica”, diz Ahmad Al-Dahle, vice-presidente da Meta que está a liderar o trabalho de Inteligência Artificial generativa da empresa. “Este é um momento muito, muito importante para nós.”
Mas ainda há muitas ressalvas. A Meta não está a divulgar informações sobre o conjunto de dados que usou para treinar o LLaMA 2 e não pode garantir que não tenha incluído trabalhos protegidos por direitos autorais ou dados pessoais, de acordo com um documento de pesquisa da empresa compartilhado exclusivamente com a MIT Technology Review. O LLaMA 2 também apresenta os mesmos problemas que afetam todos os modelos de linguagem de grande porte: uma propensão a produzir falsidades e linguagem ofensiva.
A ideia, diz Al-Dahle, é que, ao liberar o modelo e permitir que os programadores e as empresas mexam nele, a Meta aprenderá lições importantes sobre como tornar os seus modelos mais seguros, menos tendenciosos e mais eficientes.
Um modelo poderoso de código aberto como o LLaMA 2 representa uma ameaça considerável para a OpenAI, diz Percy Liang, diretor do Center for Research on Foundation Models de Stanford. Liang fez parte da equipe de pesquisadores que desenvolveu o Alpaca, um concorrente de código aberto do GPT-3, uma versão anterior do modelo de linguagem da OpenAI.
“O LLaMA 2 não é o GPT-4”, diz Liang. E em seu artigo de pesquisa, a Meta admite que ainda há uma grande diferença de desempenho entre o LLaMA 2 e o GPT-4, que agora é o modelo de linguagem de IA de última geração da OpenAI. “Mas para muitos casos de uso, você não precisa do GPT-4”, acrescenta.
Um modelo mais personalizável e transparente, como o LLaMA 2, pode ajudar as empresas a criarem produtos e serviços mais rapidamente do que um modelo proprietário grande e sofisticado, diz.
“Fazer com que o LLaMA 2 se torne a principal alternativa de código aberto ao OpenAI seria uma grande vitória para a Meta”, diz Steve Weber, professor da Universidade da Califórnia, em Berkeley.
Por trás da cortina
Para que o LLaMA 2 estivesse pronto para ser lançado, foram necessários muitos ajustes para tornar o modelo mais seguro e menos propenso a lançar falsidades tóxicas do que o seu antecessor, diz Al-Dahle.
A Meta tem muitas gafes do passado com as quais aprender. O seu modelo de linguagem para ciência, o Galactica, foi retirado do ar depois de apenas três dias, e seu modelo anterior, o LLaMA, que se destinava apenas a fins de pesquisa, vazou na Internet, gerando críticas de políticos que questionaram se a Meta estava a levar em conta os riscos associados aos modelos de linguagem de IA, como desinformação e assédio.
Para reduzir o risco de repetir esses erros, a Meta aplicou uma combinação de diferentes técnicas de machine learning com o objetivo de melhorar a utilidade e a segurança.
A abordagem da Meta para treinar o LLaMA 2 teve mais etapas do que o normal para modelos de IA generativa, diz Sasha Luccioni, pesquisadora da startup de IA Hugging Face.
O modelo foi treinado com 40% mais dados do que o seu antecessor. Al-Dahle diz que havia duas fontes de dados de formação: dados que foram recolhidos online e um conjunto de dados ajustado e aperfeiçoado de acordo com o feedback de anotadores humanos para se comportar de uma maneira mais desejável. A empresa diz que não usou dados de utilizadores Meta no LLaMA 2 e excluiu dados de sites que sabia que continham muitas informações pessoais.
Apesar disso, o LLaMA 2 ainda emite linguagem ofensiva, prejudicial e problemática, assim como os modelos rivais. A Meta diz que não removeu os dados tóxicos do conjunto de dados, porque deixá-los lá poderia ajudar o LLaMA 2 a detectar melhor o discurso de ódio, e removê-los poderia causar o risco de filtrar acidentalmente alguns grupos demográficos.
No entanto, o compromisso da Meta com a abertura é empolgante, diz Luccioni, porque permite que investigadores como ela estudem adequadamente os vieses, a ética e a eficiência dos modelos de IA.
O fato de o LLaMA 2 ser um modelo de código aberto também permitirá que investigadores e programadores externos o investiguem em busca de falhas de segurança, o que o tornará mais seguro do que os modelos proprietários, diz Al-Dahle.
Liang concorda. “Estou muito animado para experimentar as coisas e acho que isso será benéfico para a comunidade”, reitera.