Estamos à beira de um boom na tecnologia de IA de voz, com empresas de tecnologia como a Apple e a OpenAI a lançar uma nova geração de assistentes baseados em inteligência artificial. Contudo, as vozes predefinidas destes assistentes refletem, geralmente, um padrão cultural: americanas e brancas, britânicas, se tanto, e falam de certo inglês, representando apenas uma pequena fração dos inúmeros dialetos e sotaques da língua, que variam entre regiões e culturas. Se for uma entre os biliões de pessoas que não falam inglês, azar: estas ferramentas não soam tão bem em outras línguas.
Esta disparidade ocorre porque os dados usados para treinar estes modelos são limitados. Na investigação de IA, a maior parte dos dados utilizados para treinar modelos é extraída da internet em inglês, refletindo predominantemente a cultura anglo-americana. No entanto, um grande esforço comunitário visa mudar este cenário e trazer mais transparência e diversidade à sonoridade das IA: a iniciativa Common Voice da Mozilla.
O conjunto de dados criado pela Common Voice nos últimos sete anos tornou-se um dos recursos mais úteis para quem deseja construir IAs de voz. Nos últimos anos, o número de downloads deste recurso cresceu exponencialmente, especialmente com o atual boom da IA, ultrapassando os 5 milhões em 2024, em comparação com apenas 38.500 em 2020. A recolha destes dados, entretanto, não é uma tarefa simples, pois depende de uma vasta rede de voluntários, que cresceu de cerca de 500 mil em 2020 para mais de 900 mil em 2024. Ainda assim, a abordagem de disponibilizar estes dados gratuitamente, levanta críticas dentro da comunidade, que aponta para a possibilidade de exploração, já que gigantes da tecnologia podem se beneficiar do trabalho voluntário.
Desde 2017, os voluntários do projeto Common Voice recolheram 31.000 horas de dados de voz em cerca de 180 idiomas, que vão desde o russo e o catalão até o marata. Se já utilizou serviços que utilizam a IA de áudio, estes foram provavelmente, ou pelo menos parcialmente, treinados com dados do Common Voice.
A causa da Mozilla é nobre: à medida que a IA se integra cada vez mais nas nossas vidas e na nossa comunicação, torna-se essencial que as ferramentas com que interagimos soem como nós. Esta tecnologia tem o potencial de reduzir barreiras de comunicação e transmitir informações de forma mais acessível, como para pessoas que não sabem ler. Contudo, o foco quase exclusivo na língua inglês corre o risco de consolidar uma nova ordem colonial e extinguir os outros idiomas.
“Seria um grande retrocesso se, em vez de finalmente criarmos modelos de tradução multimodais e multilíngues de alto desempenho, e de tornar o mundo mais multilingue, acabássemos por obrigar toda a gente a trabalhar, por exemplo, em inglês ou francês”, afirma EM Lewis-Jong, diretor da Common Voice.
Por ser um projeto de código aberto, qualquer pessoa pode aceder aos dados da Common Voice e usá-los gratuitamente. Este nível de transparência é raro na governança de dados para IA. A maioria dos grandes conjuntos de dados de áudio não estão disponíveis ao público, sendo muitos destes dados extraídos de plataformas como YouTube, segundo uma investigação de uma equipa da universidade de Washington e das universidades Carnegie Mellon e Northwestern.
Grande parte do trabalho de recolha de dados de linguagem é realizada por voluntários como Bülent Özden, um investigador da Turquia. Desde 2020, ele não doa apenas a sua voz, mas também promove o projeto para conseguir que mais pessoas doem a voz também. Recentemente, dedicou dois meses a tempo inteiro à correção de dados e revisão de erros tipográficos no idioma turco. Para Özden, o objetivo não é apenas melhorar os modelos de IA, mas também preservar culturas, especialmente idiomas de poucos recursos. Ele menciona que começou a recolher amostras de línguas menos faladas da Turquia, como o circassiano e o zaza.
No entanto, à medida que fui analisando o conjunto de dados, reparei que a cobertura de línguas e sotaques é muito desigual. Por exemplo, enquanto há 3.554 horas de dados em inglês recolhidos de 94.665 falantes, apenas 22 horas de gravações em finlandês foram recolhidas de 231 pessoas. Idiomas como coreano e punjabi, que possuem milhões de falantes, contam com apenas algumas horas de dados gravados.
Este desequilíbrio surgiu porque os esforços de recolha de dados são iniciados de baixo para cima pelas próprias comunidades linguísticas, diz Lewis-Jong.
“Estamos a tentar dar às comunidades o que elas precisam para criar os seus próprios conjuntos de treino de dados de IA. Focamo-nos principalmente em comunidades linguísticas que não têm dados disponíveis ou que não são alvo do interesse de grandes empresas de tecnologia,” diz Lewis-Jong. Espera-se que com a ajuda de voluntários e financiamentos pontuais, o conjunto de dados do Common Voice tenha cerca de 200 línguas até ao final do ano.
A licença permissiva do Common Voice significa que muitas empresas dependem dele- por exemplo, a startup sueca Mabel AI, que cria ferramentas de tradução para prestadores de cuidados de saúde. Umas das primeiras línguas que a empresa utilizou foi o ucraniano; construiu uma ferramenta de tradução para ajudar os refugiados ucranianos a interagir com os serviços sociais suecos diz Karolina Sjöberg, fundadora e diretora executiva da Mabel AI. Desde então, a equipa expandiu-se para outras línguas como o árabe e o russo.
Um problema comum em muitos conjuntos de dados de áudio é que eles consistem em leituras de livros ou textos, o que não reflete a forma como as pessoas realmente falam, especialmente em situações de estresse ou dor, explica Karolina Sjöberg. Visto que qualquer pessoa pode submeter frases para o Common Voice para que outros as leiam em voz alta, o conjunto de dados da Mozilla também inclui frases mais coloquiais e mais naturais, afirma Karolina Sjöberg.
Ainda assim, os dados não são perfeitamente representativos. A equipe da Mabel AI descobriu que a maioria dos dados de voz nas línguas de que precisava eram doados por homens mais jovens, o que é bastante típico do conjunto de dados.
“Os refugiados para quem pretendíamos usar a aplicação eram tudo, menos homens jovens”, diz Sjöberg. “Isso significava que os dados de voz de que precisávamos não correspondiam exatamente aos dados que tínhamos.” A equipa começou então a recolher os seus próprios dados de voz, envolvendo mulheres ucranianas e pessoas idosas.
Ao contrário de outros conjuntos de dados, o Common Voice solicita aos participantes que partilhem informações sobre o seu género e detalhes sobre os seus sotaques. Garantir a representação de diferentes géneros é essencial para combater o viés nos modelos de IA, explica Rebecca Ryakitimbo, membro do projeto e criadora do plano de ação de género do Common Voice. Uma maior diversidade não só melhora a representatividade, mas também resulta em modelos mais eficientes. Os sistemas treinados com dados homogéneos e limitados tendem a gerar resultados estereotipados e prejudiciais.
“Não queremos um caso em que um chatbot, com um nome feminino, responda de forma diferente a uma mulher do que a um homem”, diz Ryakitimbo.
A Ryakitimbo recolheu dados de voz em kiswahili na Tanzânia, no Quénia e na República Democrática do Congo. Ela procurou obter vozes de um grupo socioeconômico diversificado de falantes de kiswahili, envolvendo mulheres de todas as idades que vivem em áreas rurais, que nem sempre são alfabetizadas ou têm acesso a dispositivos.
Este tipo de recolha é desafiante. Para muitas pessoas, a importância de recolher dados de voz para a IA pode parecer abstrata, especialmente se não estiverem familiarizadas com a tecnologia. A Ryakitimbo e outros voluntários abordaram mulheres em contextos nos quais elas se sentissem seguras, como palestras sobre higiene menstrual, explicando como a tecnologia poderia, por exemplo, ajudar a disseminar informações sobre a mesntruação. Para as mulheres que não sabiam ler, a equipa lia as frases, e elas repetiam-nas para a gravação.
O projeto Common Voice é sustentado pela crença de que as línguas são uma parte essencial da identidade. “Achamos que não se trata apenas de um idioma, mas de transmitir uma cultura, uma herança e valorizar o contexto cultural único de cada pessoa”, afirma Lewis-Jong. “Existem todo o tipo de expressões idiomáticas e frases culturais que simplesmente não podem ser traduzidas”, acrescentam.
O Common Voice é o único conjunto de dados de áudio onde o inglês não domina, diz Willie Agnew, um investigador da Universidade Carnegie Mellon que estudou conjuntos de dados de áudio. “Estou muito impressionado com a forma como fizeram e como criaram este conjunto de dados que é, de facto, bastante diversificado”, afirma Agnew. “Parece que estão muito à frente de quase todos os outros projetos que analisámos.”
Passei algum tempo a verificar as gravações de outros falantes de finlandês na plataforma Common Voice. Enquanto as suas vozes ecoavam no meu escritório, senti-me surpreendentemente emocionado. Todos estávamos unidos pela mesma causa: tornar os dados de IA mais inclusivos e garantir que a nossa cultura e idioma fossem representados adequadamente na próxima geração de ferramentas de IA.
No entanto, surgiram grandes dúvidas sobre o destino da minha voz caso eu a doasse. Uma vez incorporada no conjunto de dados, eu não teria controlo sobre como ela poderia ser usada no futuro. O setor da tecnologia não é propriamente conhecido por dar créditos adequados às pessoas, e os dados estão disponíveis para o uso de qualquer um.
“Por mais que queiramos que isto beneficie as comunidades locais, existe a possibilidade de que as Big Techs também utilizem estes mesmos dados para criar algo que depois se torne um produto comercial”, afirma Ryakitimbo. Embora a Mozilla não divulgue quem descarregou o Common Voice, Lewis-Jong menciona que empresas como a Meta e a Nvidia declararam tê-lo utilizado.
O acesso aberto a estes dados linguísticos raros e arduamente obtidos não é algo que todos os grupos minoritários queiram, diz Harry h. Jiang, investigador da Universidade Carnegie Mellon, que fez parte da equipa que realizou a investigação de auditoria. Por exemplo, os grupos indígenas expressaram a sua preocupação.
“O extrativismo” é algo sobre o qual a Mozilla tem refletido muito nos últimos 18 meses, diz Lewis-Jong. Ainda este ano, o projeto planeia trabalhar com comunidades para testar licenças alternativas, como a Nwulite Obodo Open Data License, desenvolvida por investigadores da Universidade de Pretória para partilhar dados africanos de forma mais justa. Por exemplo, pode ser solicitado a quem deseja aceder aos dados que justifique o uso pretendido, podendo ser autorizados a licenciá-los apenas para determinados produtos ou por um período limitado. Os utilizadores poderão também ser incentivados a contribuir com projetos comunitários voltados à redução da pobreza, segundo Lewis-Jong.
Lewis-Jong explica que o piloto é um exercício de aprendizagem que serve para avaliar se as pessoas realmente querem dados com licenças alternativas e se estas abordagens são sustentáveis para as comunidades que gerenciam os dados. A esperança é que isso leve a algo semelhante a um “código aberto 2.0”.
No final, decidi doar minha voz. Recebi uma lista de frases para dizer, sentei-me à frente do computador e cliquei no botão de gravar. Um dia, espero que o meu esforço ajude uma empresa ou investigador a construir uma IA de voz menos genérica e mais parecida comigo.
Esta história foi atualizada