Inteligência Artificial

Como contaminar os dados que as Big Techs usam para vigiá-lo

Algoritmos não têm sentido sem bons dados. O público pode explorar isso para exigir mudanças.

Todos os dias, a sua vida deixa um rasto de migalhas digitais que os gigantes da tecnologia usam para monitorizá-lo.  Envia um e-mail, pede comida, assiste a um programa por stream.  Recebem pacotes de dados valiosos para aumentar a compreensão das suas preferências.  Esses dados são alimentados por algoritmos de machine learning que segmentam anúncios e recomendações específicos e personalizados.  O Google recolhe os seus dados em mais de US $120 mil milhões por ano em receita de anúncios.

Cada vez mais, estamos reféns desse sistema. Em 2019, Kashmir Hill, então repórter do Gizmodo, tentou  tirar cinco grandes gigantes da tecnologia da sua vida.  Passou seis semanas infeliz, lutando para realizar funções digitais básicas.  Os gigantes da tecnologia, por sua vez, nem mesmo sentiram cócegas.

Agora, investigadores da Northwestern University, localizada em Evanston, Illinois, Estados Unidos, estão a sugerir novas maneiras de corrigir esse desequilíbrio de poder, tratando nossos dados coletivos como moeda de troca.  Os gigantes da tecnologia podem ter algoritmos sofisticados à sua disposição, mas eles não fazem sentido sem dados suficientes para treinar.

Num novo artigo  apresentado na  conferência da  Association for Computing Machinery’s  Fairness, Accountability e Transparency esse mês, investigadores, incluindo os estudantes de doutoramento Nicholas Vincent e  Hanlin  Li, propõem três maneiras que o público pode explorar isso a seu favor:

  • Greves de dados, inspiradas na ideia de greves trabalhistas, envolvem a retenção e a exclusão dos seus dados para que uma empresa de tecnologia não possa usá-los — saindo de uma plataforma ou instalando ferramentas de privacidade, por exemplo.
  • Contaminação de dados, que envolve o fornecimento de dados sem sentido ou prejudiciais.  Ad Nauseam, por exemplo, é uma extensão de navegador que clica em cada anúncio veiculado para si, confundindo os algoritmos de segmentação de anúncios do Google.
  • Contribuição consciente de dados, que envolve o fornecimento de informações significativos para o concorrente de uma plataforma que quiser protestar, como fazendo o upload de suas fotos no Tumblr ao invés do Facebook.

As pessoas já usam muitas dessas táticas para proteger a sua própria privacidade.  Se já usou um bloqueador de anúncios ou outra extensão de navegador que modifica os seus resultados de pesquisa para excluir determinados sites, envolveu-se na recolha de dados e reivindicou alguma agência sobre o uso dos seus dados.  Mas, como Hill descobriu, ações individuais esporádicas como essas não fazem muito para fazer os gigantes da tecnologia mudarem os seus comportamentos.

E se milhões de pessoas se coordenassem para contaminar direito os dados de um gigante da tecnologia?  Isso poderia dar-lhes alguma vantagem para fazer valer as suas pesquisas.

Já pode ter havido alguns exemplos disso.  Em janeiro deste ano, milhões de utilizadores excluíram as suas contas do WhatsApp e mudaram para concorrentes como Signal e Telegram depois que o Facebook anunciou que começaria a partilhar dados do WhatsApp com o resto da empresa.  O êxodo fez com que o Facebook  atrasasse  as mudanças de política.

Ainda esse mês, o Google  também anunciou  que iria parar de monitorizar indivíduos na web e direcionar anúncios para eles.  Embora não esteja claro se isso é uma mudança real ou apenas uma reformulação de marca, diz Vincent, é possível que o aumento do uso de ferramentas como o Ad Nauseam tenha contribuído para essa decisão ao degradar a eficácia dos algoritmos da empresa.  (Claro, é difícil dizer. “A única pessoa que realmente sabe quão efetivamente um movimento de aproveitamento de dados impactou um sistema é a empresa de tecnologia”, refere.)

Vincent e Li acreditam que essas campanhas podem complementar estratégias como a defesa de políticas e a organização dos trabalhadores no movimento de resistência à Big Tech.

“É empolgante ver esse tipo de trabalho”, diz Ali Alkhatib, investigador do Centro de Ética em Dados Aplicados da Universidade de São Francisco, que não esteve envolvido na pesquisa.  “Foi muito interessante vê-los a pensar sobre a visão coletiva ou holística: podemos mexer no poço e fazer exigências com essa ameaça, porque são os nossos dados e tudo vai para esse lugar”.

Ainda há trabalho a ser feito para tornar essas campanhas mais difundidas.  Os cientistas da computação poderiam desempenhar um papel importante no fabrico de mais ferramentas como o  Ad Nauseam, por exemplo, o que ajudaria a diminuir a barreira para a participação em tais táticas.  Os legisladores também podem ajudar.  Os ataques de dados são mais eficazes quando apoiados por fortes leis de privacidade de dados, como o Regulamento Geral de Proteção de Dados da União Europeia (RGPD), que dá aos consumidores o direito de solicitar a exclusão dos seus dados.  Sem essa regulamentação, é mais difícil garantir que uma empresa de tecnologia lhe dê a opção de limpar os seus registros digitais, mesmo que remova a sua conta.

E algumas perguntas ainda precisam ser respondidas.  De quantas pessoas uma greve de dados precisa para prejudicar o algoritmo de uma empresa?  E que tipo de dados seriam mais eficazes para contaminar um determinado sistema? Numa simulação envolvendo um algoritmo de recomendação de filmes, por exemplo, os investigadores descobriram que se 30% dos utilizadores entrassem em greve, isso poderia reduzir a precisão do sistema em 50%.  Mas cada sistema de machine learning é diferente e as empresas os atualizam constantemente.  Os investigadores esperam que mais pessoas na comunidade de machine learning possam executar simulações semelhantes de sistemas de empresas diferentes e identificar as suas vulnerabilidades.

Alkhatib sugere que os académicos devem fazer mais pesquisas sobre como inspirar a ação coletiva de dados também.  “A ação coletiva é muito difícil”, diz.  “Fazer com que as pessoas sigam as ações em andamento é um desafio.  E então há o desafio de como você mantém um grupo de pessoas que são muito transitórias — neste caso, podem ser pessoas que estão a usar um mecanismo de pesquisa por cinco segundos — para se verem como parte de uma comunidade que realmente tem longevidade?”

Essas táticas também podem ter consequências posteriores que precisam de um exame cuidadoso, acrescenta.  A contaminação de dados poderia acabar apenas por aumentar o trabalho de moderadores de conteúdo e outras pessoas encarregadas de limpar e rotular os dados de treinamento das empresas?

Mas, no geral, Vincent, Li e Alkhatib estão otimistas de que o aproveitamento de dados pode se transformar numa ferramenta persuasiva para moldar como os gigantes da tecnologia tratam nossos dados e nossa privacidade.  “Os sistemas de Inteligência Artificial dependem de dados.  É apenas um fato sobre como eles funcionam”, diz Vincent.  “Em última análise, é uma forma de o público ganhar poder”.

Artigo de Karen Hao, Senior Reporter – MIT Technology Review EUA

Nossos tópicos