A Meta criou um sistema capaz de incorporar sinais ocultos, conhecidos como marcas-d’água, em clipes de áudio gerados por IA. Isto poderia ajudar a detectar conteúdo online gerado por IA.
A ferramenta, chamada AudioSeal, é a primeira capaz de identificar quais bits de áudio, por exemplo, num podcast de uma hora inteira, podem ter sido gerados por IA. “Ela ajudaria a enfrentar o problema crescente de desinformação e fraudes usando ferramentas de clonagem de voz”, diz Hady Elsahar, cientista investigador da Meta. Agentes mal-intencionados usaram IA generativa para criar deepfakes de áudio do presidente Joe Biden, e golpistas usaram deepfakes para chantagear as suas vítimas. Em teoria, as marcas-d’água seriam capazes de ajudar as empresas de redes sociais a detectar e remover conteúdos indesejados.
No entanto, há algumas ressalvas importantes. A Meta diz que ainda não tem planos de aplicar as marcas-d’água ao áudio gerado por IA, criado com as suas ferramentas. As marcas-d’água de áudio ainda não são amplamente adotadas e não há um padrão único acordado pelo setor para elas. E as marcas-d’água para conteúdo gerado por IA tendem a ser fáceis de adulterar, por exemplo, removendo-as ou falsificando-as.
“A detecção rápida e a capacidade de identificar quais elementos de um ficheiro de áudio são gerados por IA serão fundamentais para tornar o sistema útil”, diz Elsahar. Ele afirma que a equipa alcançou entre 90% e 100% de precisão na deteção das marcas-d’água, resultados muito melhores do que os obtidos em tentativas anteriores de colocar marcas-d’água em áudio.
O AudioSeal está disponível gratuitamente no GitHub. Qualquer pessoa pode descarregá-lo e usá-lo para adicionar marcas-d’água a clipes de áudio gerados por IA. Eventualmente, ele poderá ser sobreposto aos modelos de geração de áudio de IA, de modo que seja aplicado automaticamente a qualquer discurso gerado com eles. Os investigadores que o criaram apresentarão o seu trabalho na Conferência Internacional sobre Aprendizagem de Máquina em Viena, Áustria, em julho.
O AudioSeal é criado usando duas redes neurais. Uma gera sinais de marca-d’água que podem ser incorporados às faixas de áudio. Esses sinais são impercetíveis ao ouvido humano, mas podem ser detetados rapidamente usando a outra rede neural.
Atualmente, se quiser tentar identificar o áudio gerado por IA num clipe mais longo, terá de vasculhar todo o material em pedaços de segundos para ver se algum deles contém uma marca-d’água. Esse é um processo lento e trabalhoso, e não é prático em plataformas de redes sociais, com milhões de minutos de fala.
O AudioSeal funciona de forma diferente: incorporando uma marca-d’água em cada secção de toda a faixa de áudio. Isto permite que ela seja “localizada”, o que significa que ainda pode ser detetada mesmo que o áudio seja cortado ou editado.
Ben Zhao, professor de Ciências da Computação da Universidade de Chicago, diz que esta capacidade e a precisão quase perfeita da deteção tornam o AudioSeal melhor do que qualquer outro sistema anterior de marca-d’água de áudio que ele tenha encontrado.
“É significativo explorar pesquisas que melhorem o estado da arte em marcas-d’água, especialmente em mídias como a fala, que geralmente são mais difíceis de marcar e detetar do que o conteúdo visual”, diz Claire Leibowicz, diretora de IA e integridade de mídia da organização sem fins lucrativos, Partnership on AI.
No entanto, há algumas falhas importantes que precisam ser superadas antes que estes tipos de marcas-d’água de áudio possam ser adotados em massa. Os investigadores da Meta testaram diferentes ataques para removê-las e descobriram que quanto mais informações são divulgadas sobre o algoritmo delas, mais vulnerável ele fica. O sistema também exige que as pessoas adicionem voluntariamente as marcas-d’água aos seus ficheiros de áudio.
Isso impõe algumas limitações fundamentais à ferramenta, diz Zhao. “Quando o invasor tem algum acesso ao detector [de marca-d’água], ele é bastante frágil”, diz ele. E isso significa que somente a Meta poderá verificar se o conteúdo de áudio é gerado por IA ou não.
Leibowicz diz que ainda não está convencida de que o serviço realmente aumentará a confiança do público nas informações que estão a ver ou ouvir, apesar da sua popularidade como solução no setor de tecnologia. Isso deve-se, em parte, ao facto de elas próprias serem passíveis de abuso.
“Não acredito que qualquer marca-d’água seja resistente à remoção e falsificação por adversários”, acrescenta.