O Allen Institute for Artificial Intelligence (Ai2), uma organização de pesquisa sem fins lucrativos, está a lançar uma família de modelos de linguagem multimodal de código aberto, chamada Molmo, que, segundo a organização, tem um desempenho tão bom como os principais modelos proprietários da OpenAI, Google e Anthropic.
A organização afirma que o seu maior modelo Molmo, com 72 biliões de parâmetros, supera o GPT-4o da OpenAI, que se estima ter mais de um trilião de parâmetros, em testes que medem competências como compreensão de imagens, gráficos e documentos.
Entretanto, o Ai2 afirma que um modelo Molmo menor, com 7 biliões de parâmetros, se aproxima do desempenho do modelo de ponta da OpenAI, um feito que atribui a métodos muito mais eficientes de recolha e treino de dados.
O que o Molmo demonstra é que o desenvolvimento de IA de código aberto está agora ao mesmo nível dos modelos fechados e proprietários, diz Ali Farhadi, CEO do Ai2. E os modelos de código aberto têm uma vantagem significativa, já que a sua natureza aberta permite que outras pessoas construam aplicações sobre eles. A versão demo do Molmo está disponível, e em breve, os desenvolvedores irão poder explorá-la no site Hugging Face. (Certos elementos do modelo Molmo mais poderoso ainda estão protegidos do acesso público.)
Outros grandes modelos de linguagem multimodal são treinados em vastos conjuntos de dados contendo biliões de imagens e amostras de texto recolhidas da internet, e podem incluir vários triliões de parâmetros. Esse processo introduz muito ruído nos dados de treino, resultando em alucinações, diz Ani Kembhavi, o diretor sénior de pesquisa do Ai2. Em contraste, os modelos Molmo do Ai2 foram treinados num conjunto de dados significativamente menor e mais cuidadosamente selecionado, contendo apenas 600.000 imagens, e têm entre 1 bilião e 72 biliões de parâmetros. Este foco em dados de alta qualidade, em vez de dados indiscriminadamente recolhidos, levou a um bom desempenho com a utilização de menos recursos, afirma Kembhavi.
O Ai2 conseguiu isto ao instruir anotadores humanos a descreverem as imagens no conjunto de dados de treino, em detalhe excruciante, ao longo de várias páginas de texto. Foi pedido aos anotadores que descrevessem o que viam em vez de o digitarem. Depois, foram usadas técnicas de IA para converter essas descrições faladas em dados, o que acelerou o processo de treino e reduziu a potência computacional necessária. Estas técnicas podem mostrar-se realmente úteis, se quisermos controlar de maneira significativa, os dados que usamos no desenvolvimento de IA, diz Yacine Jernite, responsável pela aprendizagem automática e da sociedade na Hugging Face, que não fez parte da investigação.
“Faz sentido que, em geral, treinar com dados de maior qualidade possa reduzir os custos de computação”, diz Percy Liang, o diretor do Stanford Center for Research on Foundation Models, que também não participou na investigação. Outra capacidade impressionante do modelo é que este pode “apontar” para as coisas, o que significa que pode analisar elementos de uma imagem ao identificar os pixéis que respondem às consultas.
Numa demonstração partilhada com a MIT Technology Review, os investigadores do Ai2 tiraram uma foto do lado de fora de seu escritório, que mostrava a marina local em Seattle, e pediram ao modelo que identificasse vários elementos da imagem, como cadeiras de praia. O modelo descreveu com sucesso o que a imagem continha, contou as cadeiras e apontou corretamente para outros elementos da imagem, conforme os investigadores pediam. No entanto, não era perfeito. Não conseguiu localizar um estacionamento específico, por exemplo.
Outros modelos avançados de IA são bons a descrever cenas e imagens, diz Farhadi. Mas isso não é o suficiente quando se deseja construir agentes de web mais sofisticados, que possam interagir com o mundo e, por exemplo, reservar um voo. A capacidade de “apontar” permite que as pessoas interajam com as interfaces de usuário, afirma. Jernite diz que o Ai2 está a operar com um grau de abertura maior do que o que temos vindo a ver em outras empresas de IA. E, embora o Molmo seja um bom começo, ele afirma que o seu verdadeiro significado estará nas aplicações que os desenvolvedores irão construir com base nele e nas maneiras como as pessoas o irão melhorar.
Farhadi concorda. Empresas de IA atraíram investimentos massivos de vários triliões de dólares nos últimos anos. Mas, nos últimos meses, investidores têm expressado ceticismo quanto à possibilidade de esses investimentos trazerem retorno. Os grandes e caros modelos proprietários não farão isso, ele argumenta, mas os de código aberto podem. Ele afirma que o trabalho mostra que a IA de código aberto, também pode ser construída de maneira a fazer uso eficiente de dinheiro e de tempo.
“Estamos empolgados com a possibilidade de capacitar outros e ver o que eles podem construir com isto”, diz Farhadi.