Esqueça o chat: a IA que pode ouvir, ver e clicar já chegou
Inteligência Artificial

Esqueça o chat: a IA que pode ouvir, ver e clicar já chegou

Novas funcionalidades de voz e vídeo sinalizam uma mudança além dos chatbots baseados em texto.

Conversar com um chatbot de IA é coisa de 2022. As mais recentes ferramentas de IA aproveitam os modelos multimodais, que podem lidar com várias coisas ao mesmo tempo, como imagens, áudio e texto.

Exemplo A: o NotebookLM do Google. O NotebookLM é uma ferramenta de pesquisa que a empresa lançou sem muito alarde há um ano. Há algumas semanas, o Google adicionou uma ferramenta de podcast de IA chamada Audio Overview para o NotebookLM, permitindo que os utilizadores criem podcasts sobre qualquer tema. Basta adicionar um link para, por exemplo, o seu perfil do LinkedIn, e os apresentadores de podcast de IA irão aumentar o seu ego por nove minutos. A funcionalidade tornou-se um sucesso viral inesperado. Escrevi sobre todas as formas estranhas e incríveis como as pessoas a estão a utilizar aqui.

Para vos dar uma ideia, criei um podcast da 125º edição da nossa revista. A IA faz um bom trabalho ao selecionar alguns destaques da revista e ao dar-lhe uma ideia geral do que se trata.

O conteúdo gerado por IA multimodal também melhorou muito em pouco tempo. Em setembro de 2022, cobri o primeiro modelo de texto-para-vídeo da Meta, o Make-A-Video. Comparados com a tecnologia de hoje, esses vídeos parecem desajeitados e tontos. A Meta acaba de anunciar o seu concorrente ao Sora da OpenAI, chamado Movie Gen. A ferramenta permite que os utilizadores usem prompts de texto para criar vídeos e sons personalizados, editar vídeos existentes e transformar imagens em vídeos.

A maneira como interagimos com os sistemas de IA também está a mudar, tornando-se menos dependente de texto. A nova interface Canvas da OpenAI permite que os utilizadores colaborem em projetos com o ChatGPT. Em vez de depender de uma janela de chat tradicional, que exige várias rondas de prompts e regeneração de texto para obter o resultado desejado, o Canvas permite que as pessoas selecionem excertos de texto ou código para editar.

Até a investigação está a receber uma atualização multimodal. Além de inserir anúncios em visões gerais da IA, o Google lançou uma nova funcionalidade em que os utilizadores podem fazer upload de um vídeo e usar a sua voz para procurar informações. Numa demonstração na Google I/O, a empresa mostrou como pode abrir a aplicação Google Lens, gravar um vídeo de peixes a nadar num aquário e fazer uma pergunta sobre eles. O modelo Gemini do Google vai, então, procurar na web e oferecer uma resposta na forma de um resumo de IA do Google.

O que une estes recursos é uma interface mais interativa e personalizável, além da capacidade de aplicar ferramentas de IA a diferentes tipos de materiais fonte. O NotebookLM foi o primeiro produto de IA, em algum tempo que me trouxe admiração e encanto, em parte, pelo quão diferentes, realistas e inesperadas eram as vozes da IA. Mas o facto de que o Audio Overview do NotebookLM se tornou um sucesso, apesar de ser um recurso secundário dentro de um produto maior, só demonstra que os desenvolvedores de IA não sabem realmente o que estão a fazer. Difícil de acreditar agora, mas o próprio ChatGPT foi um sucesso inesperado para a OpenAI.

Estamos há alguns anos no boom da IA generativa de biliões de dólares. O enorme investimento em IA contribuiu para a rápida melhoria na qualidade do conteúdo resultante. Mas ainda não vimos a “aplicação revolucionária”, e estas novas aplicações multimodais são um resultado da imensa pressão que as empresas de IA estão a enfrentar para gerar lucro e resultados. As empresas de tecnologia estão a lançar diferentes ferramentas de IA ao público e a ver quais ficam.

Nossos tópicos