Quando a OpenAI revelou o seu novo modelo de vídeo generativo em março, o Sora, convidou alguns cineastas para experimentá-lo. Nesta semana, a empresa publicou os resultados: sete curtas-metragens surreais, que não deixam dúvidas de que o futuro do vídeo generativo está a chegar rapidamente.
O primeiro lote de modelos capazes de transformar texto em vídeo surgiu no final de 2022, de empresas como a Meta, a Google e a startup de tecnologia de vídeo Runway. Era um truque interessante, mas os resultados eram granulados, com falhas e com apenas alguns segundos de duração.
Passados 18 meses, o melhor da produção fotorrealista e de alta definição do Sora é tão impressionante que alguns observadores, sem fôlego, estão a prever a morte de Hollywood. Os modelos mais recentes da Runway podem produzir clipes curtos que competem com os produzidos por estúdios de animação de grande sucesso. A Midjourney e a Stability AI, as empresas por trás de dois dos modelos mais populares de conversão de texto em imagem, agora também estão a trabalhar com vídeo.
Várias empresas estão a correr para criar um negócio com base nestas descobertas. A maioria está a descobrir à medida que avança. “Eu grito sempre: ‘Caramba, isto é muito fixe’ enquanto brinco com estas ferramentas”, diz Gary Lipkowitz, CEO da Vyond, uma empresa que fornece uma plataforma de apontar e clicar para criar vídeos animados curtos. “Mas como podes usar isto no trabalho?”
Seja qual for a resposta a essa pergunta, é provável que a tecnologia venha a transformar uma ampla gama de negócios e mudar as funções de muitos profissionais, de animadores a publicitários. O receio de uso indevido também está a crescer. A capacidade generalizada de gerar vídeos falsos tornará mais fácil do que nunca inundar a Internet com propaganda e pornografia não consensual. Podemos prever isso. O problema é que ninguém tem uma boa solução.
Enquanto continuamos a lidar com o que está por vir – bom e mau -, aqui estão quatro coisas para se pensar. Também selecionamos uma seleção dos melhores vídeos que os cineastas fizeram usando essa tecnologia, incluindo uma revelação exclusiva de “Somme Requiem”, um curta-metragem experimental da produtora Myles, de Los Angeles. Continue a ler para ter uma ideia do rumo que a produção de filmes com IA está a tomar.
1. O Sora é apenas o começo
Atualmente, o Sora da OpenAI está muito acima da concorrência na geração de vídeos. No entanto, outras empresas estão a trabalhar arduamente para alcançá-lo. O mercado ficará extremamente competitivo nos próximos meses, à medida que mais empresas aperfeiçoarem a sua tecnologia e começarem a lançar rivais do Sora.
A startup Haiper, sediada no Reino Unido, saiu da clandestinidade em março. Foi fundada em 2021 por ex-pesquisadores do Google DeepMind e do TikTok que queriam trabalhar na tecnologia chamada campos de radiância neural, ou NeRF (em inglês), que pode transformar imagens 2D em ambientes virtuais 3D. Eles achavam que uma ferramenta que transformava fotos instantâneas em cenas nas quais os utilizadores poderiam entrar, seria útil para a criação de videojogos.
Mas, há seis meses, a Haiper mudou de ambientes virtuais para videoclipes, adaptando a sua tecnologia para se adequar ao que o CEO Yishu Miao acredita que será um mercado ainda maior do que o de jogos. “Percebemos que a geração de vídeos era o ponto ideal”, diz Miao. “Haverá uma procura muito alta por isso.”
Como o Sora da OpenAI, a tecnologia de vídeo generativo da Haiper usa um modelo de difusão para gerir os visuais e um transformador (o componente em modelos de linguagem grandes, como o GPT-4, que os torna tão bons em prever o que vem a seguir) para gerir a consistência entre os quadros. “Os vídeos são sequências de dados, e os transformadores são o melhor modelo para aprender sequências”, diz Miao.
A consistência é um grande desafio para o vídeo generativo e o principal motivo pelo qual as ferramentas existentes produzem apenas alguns segundos de vídeo de cada vez. Os transformadores para geração de vídeo podem aumentar a qualidade e a duração dos clipes. A desvantagem é que os transformadores inventam coisas. No texto, isso nem sempre é óbvio. Em vídeo, isso pode resultar, por exemplo, numa pessoa com várias cabeças. Manter os transformadores no caminho certo requer vastos silos de dados de treino e armazéns cheios de computadores.
É por isso que a Irreverent Labs, fundada por ex-pesquisadores da Microsoft, está a adotar uma abordagem diferente. Tal como a Haiper, a Irreverent Labs começou gerando ambientes para jogos antes de mudar para a geração completa de vídeos. Mas a empresa não quer seguir o rebanho, copiando o que a OpenAI e outros estão a fazer. “Porque então é uma batalha de computação, uma guerra total de GPUs”, diz David Raskino, cofundador e CTO da Irreverent. “E só há um vencedor nesse cenário, e ele usa uma jaqueta de couro.” (Ele está a referir-se a Jensen Huang, CEO da gigante trilionária de chips Nvidia).
Em vez de usar um transformador, a tecnologia da Irreverent combina um modelo de difusão com um modelo que prevê o que está no próximo quadro com base na física do senso comum, por exemplo, como uma bola salta ou como a água espirra no chão. Raskino diz que essa abordagem reduz os custos de treino e o número de alucinações. O modelo ainda produz falhas, mas elas são distorções da física (como uma bola a saltar que não segue uma curva suave, por exemplo) com correções matemáticas conhecidas que podem ser aplicadas ao vídeo depois de ser gerado, diz ele.
Resta saber qual abordagem será a mais duradoura. Miao compara a tecnologia atual a modelos de linguagem grandes, como o GPT-2. Há cinco anos, o modelo inicial inovador da OpenAI surpreendeu as pessoas porque mostrou o que era possível. Mas foram necessários vários anos para que a tecnologia se tornasse um divisor de águas.
O mesmo acontece com o vídeo, diz Miao: “Estamos todos na base da montanha”.
2. O que as pessoas farão com o vídeo generativo?
O vídeo é a mídia da Internet. YouTube, TikTok, noticiários, anúncios: a expectativa é ver vídeos sintéticos surgirem em todos os lugares onde eles já existem.
O setor de marketing é um dos que mais adota a tecnologia generativa com entusiasmo. Dois terços dos profissionais de marketing já experimentaram a IA generativa nos seus trabalhos, de acordo com uma pesquisa recente realizada pela Adobe nos Estados Unidos, sendo que mais de metade disse ter usado a tecnologia para produzir imagens.
O vídeo generativo é o próximo. Algumas empresas de marketing já lançaram curtas-metragens para demonstrar o potencial da tecnologia. O exemplo mais recente é o “Somme Requiem”, com 2,5 minutos de duração, feito pela Myles. Podes assistir ao filme abaixo numa revelação exclusiva da MIT Technology Review.
“Somme Requiem” retrata soldados presos na neve durante o cessar-fogo de Natal da Primeira Guerra Mundial em 1914. O filme é composto por dezenas de tomadas diferentes que foram produzidas usando um modelo de vídeo generativo da Runway, depois unidas, com correção de cores e com música definida por editores de vídeo humanos da Myles. “O futuro da narração de histórias será um fluxo de trabalho híbrido”, diz o fundador e CEO Josh Kahn.
Kahn escolheu o cenário do período de guerra para fazer uma observação. Ele observa que a série Masters of the Air da Apple TV+, que acompanha um grupo de aviadores da Segunda Guerra Mundial, custou 250 milhões de dólares. A equipa por trás do documentário de Peter Jackson sobre a Primeira Guerra Mundial, They Shall Not Grow Old, passou quatro anos a fazer a curadoria e restaurando mais de 100 horas de filmes de arquivo. “A maioria dos cineastas só pode sonhar em ter a oportunidade de contar uma história nesse género”, diz Kahn.
“O cinema independente está quase a morrer”, acrescenta. “Acho que isto criará um ressurgimento incrível.”
Raskino espera que sim. “O género de filmes de terror é o lugar onde as pessoas testam coisas novas, experimentam coisas novas, até que elas se rompam”, diz ele. “Acho que veremos um filme de terror de grande sucesso criado por quatro pessoas num porão de algum lugar, usando IA.”
Então, o vídeo generativo é um assassino de Hollywood? Ainda não. As tomadas de cena em “Somme Requiem” – bosques vazios, um campo militar desolado – parecem ótimas. Mas as pessoas que aparecem nelas ainda sofrem com dedos mutilados e rostos distorcidos, marcas registadas da tecnologia. O vídeo generativo é melhor em panorâmicas de grande angular ou close-ups demorados, o que cria uma atmosfera sinistra, mas com pouca ação. Se “Somme Requiem” fosse mais longo, ficaria monótono.
Mas as tomadas de cena aparecem o tempo todo em filmes de longa-metragem. A maioria tem apenas alguns segundos de duração, mas pode levar horas para ser filmada. Raskino sugere que os modelos de vídeo generativos poderão em breve ser usados para produzir essas tomadas intermédias por uma fração do custo. Isso também poderia ser feito em tempo real em estágios posteriores da produção, sem a necessidade de refazer a filmagem.
Michal Pechoucek, CTO da Gen Digital, a gigante da segurança cibernética por trás de uma série de marcas de antivírus, incluindo Norton e Avast, concorda. “Acho que é para onde a tecnologia está a ir”, diz ele. “Veremos muitos modelos diferentes, cada um treinado especificamente num determinado domínio da produção de filmes. Estas serão apenas ferramentas usadas por equipas de produção de vídeo talentosas.”
Ainda não chegámos lá. Um grande problema com o vídeo generativo é a falta de controlo que os utilizadores têm sobre o resultado. A produção de imagens estáticas pode ser um sucesso e um fracasso; produzir alguns segundos de vídeo é ainda mais arriscado.
“No momento, ainda é divertido. Tens momentos de ‘a-ha’”, diz Miao. “Mas gerar um vídeo que seja exatamente o que tu desejas é um problema técnico muito difícil. Ainda estamos longe de gerar vídeos longos e consistentes a partir de um único prompt.”
É por isso que Lipkowitz, da Vyond, acredita que a tecnologia ainda não está pronta para a maioria dos clientes corporativos. Segundo ele, esses utilizadores querem muito mais controlo sobre a aparência de um vídeo do que as ferramentas atuais lhes oferecem.
Milhares de empresas em todo o mundo, incluindo cerca de 65% das empresas da Fortune 500, usam a plataforma da Vyond para criar vídeos animados para comunicações internas, formação, marketing e muito mais. A Vyond baseia-se numa série de modelos generativos, incluindo texto para imagem e texto para voz, mas oferece uma interface simples de arrastar e largar que permite aos utilizadores montar um vídeo manualmente, peça por peça, em vez de gerar um clipe completo com um clique.
“Executar um modelo generativo é como jogar dados”, diz Lipkowitz. “Esse é um difícil não para a maioria das equipas de produção de vídeo, especialmente no setor empresarial, onde tudo deve ser perfeito em termos de píxeis e de marca”, diz ele. “Se o vídeo ficar mau – talvez os personagens tenham muitos dedos, ou talvez o logótipo da empresa esteja na cor errada – bem, azar, é assim que a geração de IA funciona.”
A solução? Mais dados, mais treino e repetição. “Eu gostaria de poder apontar alguns algoritmos sofisticados”, diz Miao. “Mas não, é apenas muito mais aprendizagem.”
3. A desinformação não é nova, mas as falsificações profundas a tornarão pior.
A desinformação online vem minando a nossa fé nos meios de comunicação, nas instituições e uns nos outros há anos. Alguns temem que a adição de vídeos falsos à mistura destrua os pilares da realidade partilhada que ainda temos.
“Estamos a substituir a confiança por desconfiança, confusão, medo e ódio”, diz Pechoucek. “A sociedade sem a verdade real vai-se degenerar.”
Pechoucek está especialmente preocupado com o uso malicioso de deepfakes nas eleições. Durante as eleições do ano passado na Eslováquia, por exemplo, os invasores partilharam um vídeo falso que mostrava o principal candidato a discutir planos para manipular os eleitores. O vídeo era de baixa qualidade e fácil de identificar como um deepfake. Mas Pechoucek acredita que foi o suficiente para virar o resultado a favor do outro candidato.
John Wissinger, que lidera as equipas de estratégia e inovação da Blackbird AI, uma empresa que rastreia e gere a disseminação de desinformação online, acredita que os vídeos falsos serão mais persuasivos quando misturarem imagens reais e falsas. Veja dois vídeos que mostram o presidente Joe Biden a andar num palco. Num deles, ele tropeça, no outro, não. Quem pode dizer qual deles é real?
“Digamos que um evento tenha realmente ocorrido, mas a forma como ele é apresentado para mim é subtilmente diferente”, diz Wissinger. “Isso pode afetar a minha resposta emocional a ele.” Como observou Pechoucek, um vídeo falso nem precisa ser tão bom para causar impacto. Uma falsificação má que se encaixe nos preconceitos existentes causará mais danos do que uma falsificação inteligente que não se encaixe, diz Wissinger.
É por isso que a Blackbird se concentra em quem está a partilhar o quê com quem. De certa forma, o facto de algo ser verdadeiro ou falso é menos importante do que a sua origem e a forma como está a ser disseminado, diz Wissinger. A sua empresa já rastreia desinformação de baixa tecnologia, como publicações em redes sociais que mostram imagens reais fora de contexto. As tecnologias geradoras pioram as coisas, mas o problema das pessoas que apresentam os meios de comunicação de forma enganosa, deliberadamente ou não, não é novo, diz ele.
Adicione bots à mistura, partilhando e promovendo desinformação nas redes sociais, e as coisas ficam complicadas. O simples facto de saber que os meios de comunicação falsos estão por aí já semeia a dúvida no discurso de má-fé. “Podes ver como, em breve, será impossível discernir entre o que é sintetizado e o que é real”, diz Wissinger.
4. Estamos a enfrentar uma nova realidade online.
Em breve, as falsificações estarão em toda parte, desde campanhas de desinformação até anúncios publicitários e sucessos de bilheteira de Hollywood. Então, o que podemos fazer para descobrir o que é real e o que é apenas fantasia? Há uma série de soluções, mas nenhuma funcionará sozinha.
O setor de tecnologia está a trabalhar no problema. A maioria das ferramentas generativas tenta impor determinados termos de uso, como impedir que as pessoas criem vídeos de figuras públicas. Mas há maneiras de contornar esses filtros, e as versões de código aberto das ferramentas podem vir com políticas mais permissivas.
As empresas também estão a desenvolver padrões para a marca d’água de mídia gerada por IA e ferramentas para detetá-la. Mas nem todas as ferramentas adicionam marcas d’água, e as marcas d’água podem ser removidas dos metadados de um vídeo. Também não existe nenhuma ferramenta de deteção confiável. Mesmo que essas ferramentas funcionassem, elas tornar-se-iam parte de um jogo de gato e rato para tentar acompanhar os avanços dos modelos para os quais foram projetadas.
Plataformas online como X e Facebook têm um histórico ruim quando se trata de moderação. Não devemos esperar que elas se saiam melhor quando o problema se tornar mais difícil. Miao trabalhava no TikTok, onde ajudou a criar uma ferramenta de moderação que deteta uploads de vídeo que violam os termos de uso do TikTok. Até ele está cauteloso com o que está por vir: “Há um perigo real lá fora”, diz ele. “Não confies nas coisas que vês no teu laptop.”
A Blackbird desenvolveu uma ferramenta chamada Compass, que permite verificar os fatos em artigos e publicações de redes sociais. Cole um link na ferramenta e um grande modelo de linguagem gera uma sinopse extraída de fontes online confiáveis (que estão sempre abertas à revisão, diz Wissinger) que fornece algum contexto para o material vinculado. O resultado é muito semelhante às notas da comunidade que às vezes são anexadas a publicações polémicas em sites como X, Facebook e Instagram. A empresa prevê que o Compass gere notas da comunidade para qualquer coisa. “Estamos a trabalhar nisso”, diz Wissinger.
Mas as pessoas que colocam links num site de verificação de fatos já são bastante experientes – e muitas outras podem não saber que essas ferramentas existem ou podem não estar inclinadas a confiar nelas. A desinformação também tende a espalhar-se muito mais do que qualquer correção subsequente.
Enquanto isso, as pessoas discordam sobre de quem é o problema, em primeiro lugar. Pechoucek diz que as empresas de tecnologia precisam abrir os seus softwares para permitir mais concorrência em termos de segurança e confiança. Isso também permitiria que as empresas de segurança cibernética, como a sua, desenvolvessem software de terceiros para policiar essa tecnologia. É o que aconteceu há 30 anos, quando o Windows teve um problema de malware, diz ele: “A Microsoft permitiu que as empresas de antivírus ajudassem a proteger o Windows. Como resultado, o mundo online tornou-se um lugar mais seguro.”
Mas Pechoucek não é muito otimista. “Os desenvolvedores de tecnologia precisam criar as suas ferramentas tendo a segurança como objetivo principal”, diz ele. “Mas mais pessoas pensam em como tornar a tecnologia mais poderosa do que se preocupam em como torná-la mais segura.”
Há um refrão fatalista comum no setor de tecnologia: a mudança está a chegar, lide com ela. “A IA generativa não vai deixar de ser inventada”, diz Raskino. “Isso pode não ser muito popular, mas acho que é verdade: não acho que as empresas de tecnologia possam arcar com todo o ônus. No final das contas, a melhor defesa contra qualquer tecnologia é um público muito bem instruído. Não há atalho”.
Miao concorda. “É inevitável que adotemos maciçamente a tecnologia generativa”, diz ele. “Mas isso também é responsabilidade de toda a sociedade. Precisamos educar as pessoas.”
“A tecnologia avançará e precisamos estar preparados para essa mudança”, acrescenta. “Precisamos lembrar aos nossos pais e amigos que as coisas que eles veem na tela podem não ser autênticas.” Isso é especialmente verdadeiro para as gerações mais velhas, diz ele: “Os nossos pais precisam estar cientes desse tipo de perigo. Acho que todos devem trabalhar juntos.”
Precisamos trabalhar juntos rapidamente. Quando o Sora foi lançado há um mês, o mundo da tecnologia ficou surpreso com a rapidez com que o vídeo generativo havia progredido. Mas a grande maioria das pessoas não faz ideia de que esse tipo de tecnologia existe, diz Wissinger: “Elas certamente não entendem as linhas de tendência em que estamos. Acho que isso vai apanhar o mundo de surpresa”.