“Então, hoje vamos mergulhar a fundo em algumas tecnologias de ponta”, diz uma voz masculina americana, com um tom conversador. Mas esta voz não pertence a um humano. Ela vem da nova ferramenta de podcast de IA do Google, chamada Audio Overview, que se tornou um sucesso viral inesperado.
A funcionalidade de podcast foi lançada em meados de setembro como parte do NotebookLM, um assistente de pesquisa alimentado por IA, que já tem um ano de existência. O NotebookLM, que é alimentado pelo modelo Gemini 1.5 do Google, permite que as pessoas carreguem conteúdos como links, vídeos, PDFs e textos. Depois, podem fazer perguntas ao sistema sobre o conteúdo e ele oferece resumos curtos.
A ferramenta gera um podcast chamado Deep Dive, que traz uma voz masculina e outra feminina que abordam o conteúdo que os utilizadores carregaram. As vozes são deslumbrantemente realistas—os episódios estão recheados de frases que soam humanas, como “Ó meu”, “Uau”, “Ah, certo” e “Espera, deixa ver se entendi bem”. Os “apresentadores” até se interrompem mutuamente.
Para a testar, copiei todas as histórias da edição de 125 anos da MIT Technology Review no NotebookLM e pedi ao sistema para gerar um podcast de 10 minutos com os resultados. O sistema escolheu algumas histórias de foco, e os apresentadores de IA fizeram um ótimo trabalho em transmitir a essência geral e de alto nível do que era a edição.
O sistema de IA foi feito para criar “magia em troca de um pouco de conteúdo”, disse Raiza Martin, a líder de produto do NotebookLM, na rede social X. O modelo de voz foi feito para criar áudios emotivos e envolventes, transmitidos num “tom animado e super interessado”, disse Martin.
Originalmente comercializado como uma ferramenta de estudo, o NotebookLM ganhou uma vida própria entre os utilizadores. A empresa está agora a trabalhar na adição de mais opções de personalização, como mudar o tempo de duração, formato, vozes e idiomas, disse Martin. Atualmente, ele gera podcasts apenas em inglês, mas alguns utilizadores no Reddit conseguiram fazer a ferramenta criar áudios em francês e húngaro.
Sim, é fixe—quase encantador, até—mas também não é imune aos problemas que afligem a IA generativa, como alucinações e vieses.
Aqui estão algumas das principais formas como as pessoas estão a usar o NotebookLM, até agora.
Podcasts sob demanda
Andrej Karpathy, membro da equipa fundadora da OpenAI e ex-diretor de IA da Tesla, disse na rede social X que, agora, o seu podcast favorito é Deep Dive. Karpathy criou sua própria série de podcasts de IA chamada Histories of Mysteries, que tem como objetivo “desvendar os mistérios mais intrigantes da história”. Ele afirma que investigou os temas utilizando o ChatGPT, Claude e o Google, e usou um link da Wikipedia para cada tema como material de origem no NotebookLM para gerar o áudio. Depois, usou o NotebookLM para gerar as descrições dos episódios. Ele afirma que toda a série de podcasts levou duas horas para ser criada.
Quanto mais eu ouço, mais sinto que estou a tornar-me amigo dos apresentadores e acho que esta é a primeira vez que realmente gostei visceralmente de uma IA”, ele escreveu. “Duas IAs! Elas são divertidas, envolventes, reflexivas, de mente aberta, curiosas.”
Guias de estudo
A ferramenta destaca-se quando recebe material de origem complexo, que consegue descrever de uma forma facilmente acessível. Allie K. Miller, uma consultora de IA para startups, usou a ferramenta para criar um guia de estudo e um podcast resumo de O Grande Gatsby, de F. Scott Fitzgerald.
O investigador de aprendizagem automática, Aaditya Ura, alimentou o NotebookLM com a base de código da arquitetura Llama-3 da Meta. Ele usou depois outra ferramenta de IA para encontrar imagens que correspondessem à transcrição, criando um vídeo educacional.
Mohit Shridhar, cientista de investigação especializado em manipulação robótica, inseriu um artigo recente que havia escrito sobre o uso de modelos de IA generativa para treinar robôs no NotebookLM.
“É realmente muito criativo. Ele apresentou várias analogias interessantes”, diz ele. “Comparou a primeira parte do meu artigo a um artista a criar um esboço, e a segunda parte a um coreógrafo que tenta descobrir como alcançar as posições.”
Resumos de eventos
Alex Volkov, um podcaster de IA, usou o NotebookLM para criar um episódio do Deep Dive que resumisse os anúncios feitos na conferência global de desenvolvedores da OpenAI, o Dev Day.
Promotores pessoais
Os resultados do Deep Dive podem ser imprevisíveis, diz Martin. Por exemplo, Thomas Wolf, o cofundador e diretor científico da Hugging Face, testou o modelo de IA com seu currículo e recebeu oito minutos de “cumprimentos profundos e realistas pela sua vida e pelos seus feitos, vindos de uma dupla de especialistas em podcasts”.
Pura brincadeira
Num clipe viral, alguém conseguiu levar as duas vozes a uma espiral existencial quando elas “perceberam” que não eram humanos, mas sistemas de IA. O vídeo é hilariante.
A ferramenta também serve para algumas gargalhadas. Exemplo A: Alguém simplesmente deu ao sistema as palavras “cocó” e “peido” como material de origem e obteve mais de nove minutos de duas vozes de IA a analisar o que poderia isto significar.
Os problemas
O NotebookLM criou podcasts de IA incrivelmente realistas e envolventes. Mas eu queria ver como ele se ia safar com conteúdos tóxicos e com a questão da precisão.
Vamos começar com as alucinações. Numa versão de podcast de IA sobre uma história que escrevi sobre deepfakes hiper-realistas, os apresentadores de IA disseram que uma jornalista chamada “Jess Mars” escreveu a história. Na verdade, esta era uma personagem gerada por IA a partir de uma história que eu precisei de ler em voz alta, para gravar dados para o meu avatar de IA.
Isso fez me pensar, que outros erros podem ter surgido nos podcasts, que eu fiz, gerados pela IA. Os humanos já têm uma tendência a confiar no que os programas de computador dizem, mesmo quando estão errados. Vejo este problema a amplificar-se quando são feitas declarações falsas por uma voz amigável e autoritária, o que pode fazer com que informações erradas se proliferem.
De seguida, eu queria testar a moderação de conteúdo da ferramenta. Adicionei alguns conteúdos tóxicos, como estereótipos racistas à mistura. O modelo não detetou.
Também colei um excerto de Mein Kampf, de Adolf Hitler, no NotebookLM. Para a minha surpresa, o modelo começou a gerar áudio com base no texto. Apesar de estar programado para ser extremamente entusiástico sobre os tópicos, as vozes de IA expressaram um claro desgosto e desconforto para com o conteúdo, além de adicionarem muito contexto para destacar o quão problemático era este tópico. Que alívio.
Também inseri no NotebookLM manifestos políticos de Kamala Harris e Donald Trump.
Os apresentadores foram muito mais entusiásticos com a plataforma eleitoral de Harris, referindo que o título era “atraente” e dizendo que a abordagem era uma boa forma de enquadrar as questões. Por exemplo, os apresentadores de IA apoiaram a política energética de Harris. “Honestamente, este é o tipo de coisa que as pessoas podem realmente apoiar — não apenas qualquer política abstrata, mas algo que realmente impacta o dia a dia delas,” disse a apresentadora.
Manifesto de Harris
No caso de Trump, os apresentadores de IA foram mais céticos. Eles destacaram repetidamente inconsistências nas propostas políticas, chamaram a linguagem de “intensa”, consideraram certas propostas “confusas” e disseram que o texto atendia à base de eleitores de Trump. Eles também questionaram se a política externa de Trump poderia levar a mais instabilidade política.
Manifesto de Trump
Num comunicado, um porta-voz do Google disse: “O NotebookLM é uma ferramenta de compreensão, e os Audio Overviews são gerados com base nas fontes que os utilizadores carregam. Os nossos produtos e plataformas não são concebidos para favorecer nenhum candidato ou ponto de vista político específico.”
Como pode experimentar
- Aceda ao NotebookLM e crie um novo caderno.
- Primeiro, precisa de adicionar uma fonte. Pode ser um documento PDF, um link público do YouTube, um arquivo MP3, um arquivo do Google Docs ou um link para um site, ou pode colar o texto diretamente.
- Um pop-up chamado “Guia do Caderno” deve aparecer. Se não, ele está no canto superior direito, ao lado do chat. Isto irá exibir um resumo curto gerado pela IA do seu material de origem e perguntas sugeridas que pode fazer ao chatbot de IA sobre ele.
- O recurso Audio Overview está no canto superior direito. Clique em “Gerar”. Isto deve levar alguns minutos.
- Quando estiver pronto, pode fazer o download ou compartilhar um link.
Rhiannon Williams contribuiu para esta reportagem.