Dentro da corrida para arquivar os sites do governo dos EUA
Governança

Dentro da corrida para arquivar os sites do governo dos EUA

No meio da remoção de vários sites e bases de dados governamentais, diversas organizações estão a trabalhar para preservar dados climáticos, de saúde e científicos vitais antes que desapareçam para sempre.

Nas últimas semanas, a nova administração presidencial dos EUA removeu milhares de páginas da web do governo relacionadas com saúde pública, justiça ambiental e investigação científica. Estas remoções em massa resultam do esforço da nova administração para eliminar informações governamentais relacionadas com diversidade e “ideologia de género”, bem como do escrutínio das práticas de várias agências governamentais.

O site da USAID está offline. O mesmo acontece com sites relacionados, como o childreninadversity.gov, e outras milhares de páginas do Census Bureau, dos Centers for Disease Control and Prevention e do Office of Justice Programs.

“Nunca vimos nada assim”, diz David Kaye, professor de direito na Universidade da Califórnia em Irvine e ex-relator especial da ONU para a liberdade de opinião e expressão. “Não acho que nenhum de nós saiba exatamente o que está a acontecer. O que podemos ver são sites do governo a cair, bases de dados de interesse público essenciais. Todo o site da USAID.”

Mas, à medida que as páginas da web do governo são removidas, um conjunto de organizações está a tentar arquivar o máximo de dados e informações possível antes que desapareçam para sempre. A esperança é manter um registo do que foi perdido para que cientistas e historiadores possam usar no futuro.

O arquivamento de dados é geralmente considerado apartidário, mas as ações recentes da administração estimularam alguns na comunidade de preservação a agir.

“Considero as ações da atual administração um ataque a todo o empreendimento científico”, diz Margaret Hedstrom, professora emérita de informação na Universidade do Michigan.

Várias organizações estão a tentar reunir o máximo de dados possível. Um dos maiores projetos é o End of Term Web Archive, uma coligação apartidária de muitas organizações que visa fazer uma cópia de todos os dados do governo no final de cada mandato presidencial. O EoT Archive permite que indivíduos indiquem sites ou conjuntos de dados específicos para preservação.

“Tudo o que podemos fazer é recolher o que foi publicado, arquivá-lo e garantir que seja acessível publicamente no futuro”, diz James Jacobs, bibliotecário de informações do governo dos EUA na Universidade de Stanford e um dos administradores do EoT Archive.

Outras organizações estão a adotar uma abordagem específica na recolha de dados. Por exemplo, o Open Environmental Data Project (OEDP) está a tentar capturar dados relacionados com ciência climática e justiça ambiental. “Estamos a tentar rastrear o que está a ser retirado”, diz Katie Hoeberling, diretora de iniciativas políticas do OEDP. “Não posso dizer com certeza exatamente quanto do que costumava estar disponível ainda está, mas estamos a ver, especialmente nas últimas semanas, uma taxa acelerada de dados a serem removidos.”

Além de rastrear o que está a acontecer, o OEDP está ativamente a fazer cópias de segurança de dados relevantes. Na verdade, começou esse processo em novembro, para capturar os dados no final do mandato do ex-presidente Biden. Mas os esforços aumentaram nas últimas semanas. “A situação estava muito mais calma antes da tomada de posse”, diz Cathy Richards, uma tecnóloga do OEDP. “Foi no segundo dia da nova administração que a primeira plataforma caiu. Naquele momento, todos perceberam: ‘Ah, não — temos de continuar a fazer isto e temos de continuar a trabalhar para descarregar esta lista de conjuntos de dados.'”

Este tipo de trabalho é crucial porque o governo dos EUA detém dados nacionais e internacionais inestimáveis relacionados com o clima. “Estes são repositórios insubstituíveis de informações climáticas importantes”, diz Lauren Kurtz, diretora executiva do Climate Science Legal Defense Fund. “Portanto, mexer neles ou eliminá-los significa a perda irreparável de informações críticas. É realmente muito trágico.”

Tal como o OEDP, a Catalyst Cooperative está a tentar garantir que dados relacionados com o clima e a energia sejam armazenados e acessíveis para investigadores. Ambos fazem parte dos Public Environmental Data Partners, um coletivo de organizações dedicadas à preservação de dados ambientais federais. “Tentamos identificar conjuntos de dados que sabemos que as nossas comunidades usam para tomar decisões sobre que eletricidade devemos adquirir ou para tomar decisões sobre resiliência no nosso planeamento de infraestruturas”, diz Christina Gosnell, cofundadora e presidente da Catalyst.

Arquivar pode ser uma tarefa difícil; não há uma maneira fácil de armazenar todos os dados do governo dos EUA. “Várias agências e departamentos federais lidam com preservação e arquivamento de dados de inúmeras maneiras”, diz Gosnell. Também não há ninguém que tenha uma lista completa de todos os sites governamentais existentes.

Esta miscelânea de dados significa que, além de usar rastreadores da web, que são ferramentas usadas para capturar instantâneos de sites e dados, os arquivistas geralmente precisam de recolher os dados manualmente. Além disso, por vezes, um conjunto de dados estará protegido por um endereço de login ou captcha para impedir que as ferramentas de recolha extraiam os dados. Por vezes, os web scrapers também perdem recursos importantes num site. Por exemplo, os sites geralmente têm muitos links para outras informações que não são capturadas numa recolha. Ou a recolha pode simplesmente não funcionar devido a algo relacionado com a estrutura de um site. Portanto, ter uma pessoa a verificar o trabalho do scraper ou a capturar dados manualmente é geralmente a única maneira de garantir que as informações sejam recolhidas corretamente.

E há dúvidas sobre se a recolha dos dados será realmente suficiente. Restaurar sites e conjuntos de dados complexos geralmente não é um processo simples. “Torna-se extraordinariamente difícil e dispendioso tentar resgatar e salvar os dados”, diz Hedstrom. “É como drenar o sangue de um corpo e esperar que o corpo continue a funcionar. Os reparos e tentativas de recuperação são por vezes intransponíveis quando precisamos de leituras contínuas de dados.”

“Todo este trabalho de arquivamento de dados é um penso rápido temporário”, diz Gosnell. “Se os conjuntos de dados forem removidos e não forem mais atualizados, os nossos dados arquivados tornar-se-ão cada vez mais obsoletos e, portanto, ineficazes para informar decisões ao longo do tempo.”

Estes efeitos podem ser duradouros. “Não verá o impacto disto até daqui a 10 anos, quando perceber que há uma lacuna de quatro anos de dados”, diz Jacobs.

Muitos arquivistas digitais enfatizam a importância de compreender o nosso passado. “Todos nós podemos pensar nas nossas próprias fotos de família que nos foram passadas e no quão importantes esses diferentes documentos são”, diz Trevor Owens, diretor de investigação do Instituto Americano de Física e ex-diretor de serviços digitais da Biblioteca do Congresso. “Esta cadeia de ligação com o passado é realmente importante.”

“É a nossa biblioteca; é a nossa história”, diz Richards. “Estes dados são financiados pelos contribuintes, por isso definitivamente não queremos que todo este conhecimento seja perdido quando podemos mantê-lo, armazená-lo, potencialmente fazer algo com ele e continuar a aprender com ele.”

Nossos tópicos