Meta cria marca-d'água na fala gerada por IA - MIT Technology Review Portugal

A Meta criou um sistema capaz de incorporar sinais ocultos, conhecidos como marcas-d’água, em clipes de áudio gerados por IA. Isto poderia ajudar a detectar conteúdo online gerado por IA.

A ferramenta, chamada AudioSeal, é a primeira capaz de identificar quais bits de áudio, por exemplo, num podcast de uma hora inteira, podem ter sido gerados por IA. “Ela ajudaria a enfrentar o problema crescente de desinformação e fraudes usando ferramentas de clonagem de voz”, diz Hady Elsahar, cientista investigador da Meta. Agentes mal-intencionados usaram IA generativa para criar deepfakes de áudio do presidente Joe Biden, e golpistas usaram deepfakes para chantagear as suas vítimas. Em teoria, as marcas-d’água seriam capazes de ajudar as empresas de redes sociais a detectar e remover conteúdos indesejados.

No entanto, há algumas ressalvas importantes. A Meta diz que ainda não tem planos de aplicar as marcas-d’água ao áudio gerado por IA, criado com as suas ferramentas. As marcas-d’água de áudio ainda não são amplamente adotadas e não há um padrão único acordado pelo setor para elas. E as marcas-d’água para conteúdo gerado por IA tendem a ser fáceis de adulterar, por exemplo, removendo-as ou falsificando-as.

“A detecção rápida e a capacidade de identificar quais elementos de um ficheiro de áudio são gerados por IA serão fundamentais para tornar o sistema útil”, diz Elsahar. Ele afirma que a equipa alcançou entre 90% e 100% de precisão na deteção das marcas-d’água, resultados muito melhores do que os obtidos em tentativas anteriores de colocar marcas-d’água em áudio.

O AudioSeal está disponível gratuitamente no GitHub. Qualquer pessoa pode descarregá-lo e usá-lo para adicionar marcas-d’água a clipes de áudio gerados por IA. Eventualmente, ele poderá ser sobreposto aos modelos de geração de áudio de IA, de modo que seja aplicado automaticamente a qualquer discurso gerado com eles. Os investigadores que o criaram apresentarão o seu trabalho na Conferência Internacional sobre Aprendizagem de Máquina em Viena, Áustria, em julho.

O AudioSeal é criado usando duas redes neurais. Uma gera sinais de marca-d’água que podem ser incorporados às faixas de áudio. Esses sinais são impercetíveis ao ouvido humano, mas podem ser detetados rapidamente usando a outra rede neural.

Atualmente, se quiser tentar identificar o áudio gerado por IA num clipe mais longo, terá de vasculhar todo o material em pedaços de segundos para ver se algum deles contém uma marca-d’água. Esse é um processo lento e trabalhoso, e não é prático em plataformas de redes sociais, com milhões de minutos de fala.

O AudioSeal funciona de forma diferente: incorporando uma marca-d’água em cada secção de toda a faixa de áudio. Isto permite que ela seja “localizada”, o que significa que ainda pode ser detetada mesmo que o áudio seja cortado ou editado.

Ben Zhao, professor de Ciências da Computação da Universidade de Chicago, diz que esta capacidade e a precisão quase perfeita da deteção tornam o AudioSeal melhor do que qualquer outro sistema anterior de marca-d’água de áudio que ele tenha encontrado.

“É significativo explorar pesquisas que melhorem o estado da arte em marcas-d’água, especialmente em mídias como a fala, que geralmente são mais difíceis de marcar e detetar do que o conteúdo visual”, diz Claire Leibowicz, diretora de IA e integridade de mídia da organização sem fins lucrativos, Partnership on AI.

No entanto, há algumas falhas importantes que precisam ser superadas antes que estes tipos de marcas-d’água de áudio possam ser adotados em massa. Os investigadores da Meta testaram diferentes ataques para removê-las e descobriram que quanto mais informações são divulgadas sobre o algoritmo delas, mais vulnerável ele fica. O sistema também exige que as pessoas adicionem voluntariamente as marcas-d’água aos seus ficheiros de áudio.

Isso impõe algumas limitações fundamentais à ferramenta, diz Zhao. “Quando o invasor tem algum acesso ao detector [de marca-d’água], ele é bastante frágil”, diz ele. E isso significa que somente a Meta poderá verificar se o conteúdo de áudio é gerado por IA ou não.

Leibowicz diz que ainda não está convencida de que o serviço realmente aumentará a confiança do público nas informações que estão a ver ou ouvir, apesar da sua popularidade como solução no setor de tecnologia. Isso deve-se, em parte, ao facto de elas próprias serem passíveis de abuso.

“Não acredito que qualquer marca-d’água seja resistente à remoção e falsificação por adversários”, acrescenta.

A Meta criou uma maneira de colocar uma marca de água na fala gerada por IA

Autor

Compartilhar

Partilhe

Newsletter

Dentro da corrida para arquivar os sites do governo dos EUA

Por dentro da longa busca para desenvolver a tecnologia da escrita chinesa

A revolução dos relacionamentos com IA já começou

Como as gerações Y e Z estão a contribuir para a transformação digital e cultural nas organizações

Porque é tão difícil usar a IA para diagnosticar o cancro

O impacto do Minuto MIT Technology Review no panorama tecnológico em Portugal

Este computador quântico abre caminho para máquinas maiores

“Dentes” semelhantes aos humanos foram cultivados em mini porcos

Aqui está nossa previsão para a IA neste ano

DeepSeek: o modelo de IA chinês que superou as sanções dos EUA

Nossos tópicos

Conecte-se

Assine nossa newsletter

Autor

Compartilhar

Partilhe

Newsletter

Artigos mais lidos

Nossos tópicos