Em 1964, o matemático e cientista da computação Woodrow Bledsoe tentou pela primeira vez comparar os rostos dos suspeitos de crimes com as fotos policiais. Mediu as distâncias entre diferentes características faciais em fotografias impressas e inseriu-as num programa de computador. Os seus rudimentares sucessos desencadearam décadas de pesquisa em máquinas de ensino para reconhecer rostos humanos.
Agora, um novo estudo mostra o quanto esse empreendimento corroeu a nossa privacidade. Não alimentou apenas uma ferramenta de vigilância cada vez mais poderosa. A última geração de reconhecimento facial baseado em deep learning afetou completamente as nossas normas de consentimento.
Deborah Raji, investigadora da organização sem fins lucrativos Mozilla, e Genevieve Fried, que assessora membros do Congresso dos Estados Unidos sobre responsabilidade algorítmica, examinaram mais de 130 conjuntos de dados de reconhecimento facial compilados ao longo de 43 anos. Descobriram que os investigadores, impulsionados pela explosão dos requisitos de dados do deep learning, gradualmente abandonaram o pedido de consentimento das pessoas. Com isso, cada vez mais fotos pessoais passaram a ser incorporadas a sistemas de vigilância sem o conhecimento dos indivíduos.
Isso também gerou conjuntos de dados muito mais confusos: podem incluir fotos de menores sem querer, usar rótulos racistas e sexistas ou ter qualidade e iluminação inconsistentes. A tendência pode ajudar a explicar o número crescente de casos em que os sistemas de reconhecimento facial falharam com consequências preocupantes, como a falsa prisão de dois homens negros na área de Detroit no ano passado.
As pessoas eram extremamente cautelosas ao recolher, documentar e verificar os dados faciais no início, diz Raji. “Agora não ligamos mais. Tudo isso foi abandonado”, refere. “Simplesmente não consegue acompanhar um milhão de rostos. Depois de um certo ponto, não pode nem fingir que tem o controlo”.
Um histórico de dados de reconhecimento facial
Os investigadores identificaram quatro grandes eras de reconhecimento facial, cada uma impulsionada por um desejo crescente de melhorar a tecnologia. A primeira fase, que durou até a década de 1990, foi amplamente caracterizada por métodos manuais intensivos e computacionalmente lentos.
Mas então, estimulado pela percepção de que o reconhecimento facial poderia rastrear e identificar indivíduos de forma mais eficaz do que as impressões digitais, o Departamento de Defesa dos EUA investiu US $6,5 milhões na criação do primeiro conjunto de dados de rosto em grande escala. Mais de 15 sessões de fotografia em três anos, o projeto capturou 14.126 imagens de 1.199 indivíduos. O banco de dados da Face Recognition Technology (FERET) foi lançado em 1996.
As quatro eras do reconhecimento facial
Os conjuntos de dados de reconhecimento facial aumentaram exponencialmente em tamanho à medida que os investigadores procuravam melhorar a precisão da tecnologia.
Gráfico: Número de imagens (Escala logarítmica). FERET é o primeiro conjunto de dados de rosto em grande escala disponível para pesquisa académica e comercial. O Labeled Faces in the Wild populariza a pesquisa na web para a recolha de dados de rosto. O Facebook alcança resultados revolucionários com deep learning. Não divulga os seus dados.
Na década seguinte, houve um aumento nas pesquisas académicas e comerciais de reconhecimento facial, e muitos mais conjuntos de dados foram criados. A grande maioria foi obtida por meio de sessões de fotos como a da FERET e teve o consentimento total dos participantes. Muitos também incluíram metadados meticulosos, diz Raji, como a idade e etnia dos assuntos ou informações de iluminação. Mas esses primeiros sistemas tiveram dificuldades em configurações do mundo real, o que levou os investigadores a procurar por conjuntos de dados maiores e mais diversos.
Em 2007, o lançamento do conjunto de dados Labeled Faces in the Wild (LFW) abriu as comportas para a coleta de dados por meio de pesquisa na web. Os investigadores começaram a baixar imagens diretamente do Google, Flickr e Yahoo, sem preocupação com o consentimento. Um conjunto de dados subsequente compilado por outros investigadores, chamado LFW +, também flexibilizou os padrões em torno da inclusão de menores, usando fotos encontradas com termos de pesquisa como “bebé”, “juvenil” e “adolescente” para aumentar a diversidade. Esse processo tornou possível criar conjuntos de dados significativamente maiores num curto espaço de tempo, mas o reconhecimento facial ainda enfrentou muitos dos mesmos desafios de antes. Isso levou os investigadores a procurarem ainda mais métodos e dados para superar o fraco desempenho da tecnologia.
Distribuição da fonte de dados de reconhecimento facial por época
Sessão de fotos, pesquisa na web, fotos policiais, câmeras de vigilância, entre outros. Era I, Era II, Era III, Era IV.
Então, em 2014, o Facebook usou as suas fotos de utilizador para treinar um modelo de deep learning chamado DeepFace. Embora a empresa nunca tenha divulgado o conjunto de dados, o desempenho sobre-humano do sistema elevou o deep learning ao método de facto para análise de rostos. Foi quando a verificação manual e a rotulagem se tornaram quase impossíveis, pois os conjuntos de dados aumentaram para dezenas de milhões de fotos, diz Raji. É também quando fenómenos realmente estranhos começam a aparecer, como rótulos gerados automaticamente que incluem terminologia ofensiva.
A maneira como os conjuntos de dados eram usados também começou a mudar nessa época. Em vez de tentar combinar indivíduos, novos modelos começaram a concentrar-se mais na classificação. “Em vez de dizer: ‘isso é a foto de Karen? Sim ou não,’ transformou-se em ‘Vamos prever a personalidade de Karen, ou sua etnia ‘, e encaixar pessoas nessas categorias”, diz Raji.
Amba Kak, diretora de política global da AI Now, que não participou da pesquisa, diz que o artigo oferece uma imagem nítida de como a indústria da biometria evoluiu. O deep learning pode ter poupado a tecnologia de algumas das suas lutas, mas “esse avanço tecnológico também teve um custo”, refere. “São levantados todos esses problemas com os quais agora estamos bastante familiarizados: consentimento, extração, questões de Propriedade Intelectual, privacidade”.
Perigos que geram perigos
Raji diz que a investigação dos dados a deixou gravemente preocupada com o reconhecimento facial baseado no deep learning.
“É muito mais perigoso”, alerta. “O requisito de dados força-o a recolher informações extremamente confidenciais sobre, no mínimo, dezenas de milhares de pessoas. Isso o força a violar a privacidade delas. Isso em si é uma base de perigo. E então estamos a acumular todas essas informações que não pode controlar para construir algo que provavelmente funcionará de maneiras que nem pode prever. Essa é realmente a natureza de onde estamos”.
Raji espera que o artigo provoque os investigadores a refletirem sobre o equilíbrio entre os ganhos de desempenho derivados do deep learning e a perda de consentimento, verificação meticulosa de dados e documentação completa. “Valeu a pena abandonar todas essas práticas para fazer um deep learning?” questiona.
Raji pede àqueles que desejam continuar construindo o reconhecimento facial a considerarem o desenvolvimento de técnicas diferentes: “para nós realmente tentarmos usar esta ferramenta sem magoar as pessoas, será necessário repensar tudo o que sabemos sobre ela”.
Artigo de Karen Hao, Senior Reporter – MIT Technology Review EUA