No dia 12 de março, a Google fez um anúncio um tanto surpreendente. Lançou uma versão do seu modelo de IA, o Gemini, que pode atuar não apenas no reino digital dos chatbots e da busca na internet, mas também aqui no mundo físico, por meio de robôs.
O Gemini Robotics funde o poder dos modelos de linguagem ampla com o raciocínio espacial, permitindo que você diga a um braço robótico algo como “Ponha as uvas na tigela de vidro transparente”. Estes comandos são processados pelo LLM, que identifica as intenções do que você está a dizer e as transforma em comandos que o robô consegue executar. Para mais detalhes sobre como tudo isso funciona, leia o artigo completo do nosso colega Scott Mulligan.
Você pode perguntar-se se isso significa que um dia, a sua casa ou local de trabalho estará repleto de robôs aos quais será possível dar ordens. Falaremos mais sobre isso em breve.
Mas, primeiro, de onde isto surgiu? Até agora, a Google não causou grande impacto no mundo da robótica. A Alphabet adquiriu algumas startups da área na última década, mas em 2023 encerrou uma unidade que trabalhava com robôs para tarefas práticas, como recolher o lixo.
Apesar disso, o movimento da empresa de levar a IA ao mundo físico por meio de robôs segue exatamente o precedente estabelecido por outras companhias nos últimos dois anos (algo que, humildemente, a MIT Technology Review já previa há algum tempo).
Em resumo, duas tendências que estão a convergir a partir de direções opostas: empresas de robótica estão a utilizar cada vez mais IA, e gigantes da IA que estão agora a construir robôs. A OpenAI, por exemplo, que havia encerrado a sua equipa de robótica em 2021, iniciou neste ano um novo projeto para desenvolver robôs humanoides. Em outubro, a gigante dos chips Nvidia declarou que a próxima onda da inteligência artificial será a “IA física”.
Existem muitas formas de incorporar a IA nos robôs, começando pela melhoria no treinamento para realização de tarefas. Mas o uso de modelos de linguagem ampla para dar instruções, como o Google fez, é particularmente interessante.
Não foi o primeiro. A startup de robótica Figure viralizou há cerca de um ano, num vídeo em que humanos davam instruções a um humanoide sobre como guardar louça. Na mesma época, uma startup derivada da OpenAI, chamada Covariant, construiu algo semelhante para braços robóticos em armazéns. Vi uma demonstração em que era possível dar instruções ao robô por meio de imagens, texto ou vídeo, para realizar tarefas como “mover as bolas de tênis deste recipiente para aquele ali”. A Covariant foi adquirida pela Amazon cinco meses depois.
Ao ver essas demonstrações, é inevitável perguntar: Quando é que estes robôs chegarão aos nossos locais de trabalho? E às nossas casas?
Se os planos da Figure oferecem alguma pista, a resposta para a primeira pergunta é: em breve. A empresa anunciou no sábado que está a construir uma fábrica de alta capacidade destinada a produzir 12.000 robôs humanoides por ano. Mas o treinamento e os testes desses robôs — especialmente para garantir que sejam seguros em ambientes onde trabalham próximos a humanos — ainda levam bastante tempo.
Por exemplo, a rival da Figure, Agility Robotics, afirma ser a única empresa nos Estados Unidos com clientes para os seus robôs humanoides. No entanto, os padrões de segurança da indústria para robôs humanoides que trabalham ao lado de pessoas ainda não estão completamente definidos, então os robôs da empresa precisam operar em áreas restritas.
É por isso que, apesar dos avanços recentes, as nossas casas serão a última fronteira. Comparadas a fábricas, as nossas casas são ambientes caóticos e imprevisíveis. Todos convivem em espaços relativamente pequenos. Mesmo modelos de IA impressionantes como o Gemini Robotics ainda precisarão de passar por muitos testes no mundo real e em simulações, tal como os carros autônomos. Estes testes devem ocorrer em armazéns, hotéis e hospitais, onde os robôs ainda poderão contar com a ajuda de operadores humanos remotos. Levará bastante tempo até que recebam o privilégio de lavar a nossa louça.