Lições do famoso cientista de dados da pandemia, Youyang Gu
Biotecnologia

Lições do famoso cientista de dados da pandemia, Youyang Gu

Gu criou um modelo de machine learning numa semana e usou-o diariamente no seu laptop (levou apenas uma hora), gerando previsões sobre a Covid-19 incrivelmente precisas.

O cientista de dados Youyang Gu considera-se um realista — declara isso no seu perfil no Twitter: “Apresentador de vieses imparciais. Realista.”

Quando este notou as projeções dispersas de Covid-19 na primavera passada — um modelo projetou 2 milhões de mortes nos EUA até o verão, outro previu 60.000 — Gu se perguntou se elas eram tão boas quanto a modelagem poderia ser. Decidiu, portanto, tentar e criar ele mesmo um sistema modelo de Covid-19. “Todo o meu objetivo era produzir o modelo mais preciso possível”, diz Gu, do seu apartamento em Manhattan. “Não ‘se isso’ ou ‘se aquilo’. Basicamente, sem ‘se’. Realmente não importa quais são os cenários. Eu só queria definir: ‘Esta é a previsão mais provável ou realista do que vai acontecer”.

Numa semana, construiu um modelo de machine learning e lançou o seu site de projeções de Covid-19. Executou o modelo todos os dias — levou apenas uma hora no seu laptop — e publicou projeções de mortes de Covid-19 para 50 estados dos EUA, 34 condados e 71 países.

No final de abril, estava a atrair atenção — no final das contas, milhões de pessoas acessam o seu site diariamente. Carl Bergstrom, professor de biologia da Universidade de Washington, percebeu e comentou no Twitter que o modelo de Gu estava “a fazer previsões que parecem tão boas quanto qualquer outra que já vi”.

“Posso ser um pouco cético quanto ao machine learning. Mas, neste caso, não deixe o texto de ‘machine learning’ enganá-lo fazendo-o pensar que isso é uma solução milagrosa”, escreveu Bergstrom.

Graduado do MIT com mestrado em engenharia elétrica e ciência da computação (mais um diploma em matemática), Gu, 27 anos, estava a trabalhar numa startup de análise desportiva quando a pandemia começou. Mas pausou esse empreendimento quando os jogos da liga principal foram encerrados. E então, simplesmente ao pesquisar “epidemiologia” no Google, começou a sua incursão na modelagem de Covid-19.

“Eu não tinha experiência em modelagem de doenças infecciosas”, revela. Mas tinha alguns anos de experiência como cientista de dados em finanças, trabalhando com modelos estatísticos que com base em certas suposições, analisam dados e fazem projeções sobre, digamos, qual será o preço de uma ação financeira no futuro.

“Acontece que muitos modelos de doenças infecciosas são basicamente modelos estatísticos”, diz Gu. E a meta de precisão do setor financeiro, orientada para o lucro, serviu-lhe bem no domínio epidemiológico. “Se não conseguir fazer um modelo preciso em finanças, não terá mais um emprego”, alerta. Em contraste, o objetivo no meio académico — da perspectiva de Gu, pelo menos — não é tanto fazer modelos precisos, mas sim publicar artigos e elucidar políticas públicas. “Isso não quer dizer que não façam modelos precisos — apenas que não tentam otimizá-lo especificamente nessa direção”, diz ele.

O modelo de Gu combina o machine learning com um simulador clássico de doenças infecciosas denominado modelo SEIR (considerando os indivíduos da população que são suscetíveis, expostos, infectados, recuperados ou falecidos).

O componente SEIR usa como entrada um conjunto simulado de parâmetros — uma faixa de melhor estimativa para variáveis ​​como o número de reprodução básico (a taxa em que surgem novos casos numa população inteiramente suscetível no início de um surto, antes de intervenções ou imunidade), taxa de infecção, data de confinamentos, data de reabertura e número de reprodução efetiva (a taxa em que surgem novos casos após algumas intervenções). Em termos de resultados, o simulador SEIR primeiro calcula as infecções ao longo do tempo e, em seguida, calcula as mortes (multiplicando as infecções pela taxa de mortalidade).

O modelo de machine learning de Gu então gera milhares de combinações diferentes para esses conjuntos de critérios ao tentar encontrar os parâmetros da vida real para cada região geográfica. Aprende quais parâmetros geram as projeções de morte mais precisas, comparando as previsões do SEIR com dados reais sobre mortes diárias da Universidade Johns Hopkins. “Ele tenta aprender quais conjuntos de parâmetros geram mortes que mais se aproximam dos dados reais observados, numa retrospectiva”, diz Gu. “E então usa esses parâmetros para prever e fazer projeções sobre as mortes no futuro”.

As previsões provaram ser extremamente precisas. Por exemplo, a 3 de maio, apareceu na CNN Tonight e partilhou as projeções do seu modelo de que os EUA atingiriam 70.000 mortes em 5 de maio, 80.000 mortes em 11 de maio, 90.000 mortes em 18 de maio e 100.000 mortes em 27 de maio. Em 28 de maio, escreveu no seu Twitter: “Covid19-projections.com conseguiu acertar as 4 datas”. Com alguns arredondamentos, isso era verdade.

“Não estou a dizer que fui perfeito no ano passado. Estava errado muitas vezes. Mas penso que todos nós podemos aprender a abordar a ciência como um método de encontrar a verdade, ao invés de encará-la como a própria verdade”.

Youyang Gu

O modelo não era perfeito, é claro, mas impressionou Nicholas Reich, bioestatístico e investigador de doenças infecciosas da Universidade de Massachusetts, Amherst, cujo laboratório, em colaboração com os Centros dos EUA para Controlo e Prevenção de Doenças, agrega resultados de cerca de 100 equipas internacionais de modelagem. Entre todos os modelos agregados, Reich observou, o modelo de Gu estava “consistentemente entre os melhores”.

A 6 de outubro, Gu publicou a sua previsão final de morte, pouco antes da onda de outono. O modelo projetava 231.000 mortes nos Estados Unidos até 1º de novembro. O total registado até aquela data: 230.995.

Gu encerrou o seu primeiro modelo no início de outubro de 2020 porque havia muitas equipas a fazer boas previsões de mortalidade. Em vez disso, passou a modelar infecções verdadeiras versus infecções relatadas. Em dezembro, começou a monitorizar o desdobramento da implantação da vacina e o ardiloso “caminho para imunidade coletiva“, que no início de 2021 renomeou para “o caminho para a normalidade”. Enquanto a imunidade de rebanho é alcançada quando uma porção suficiente da população é imune ao vírus, reduzindo assim a disseminação, Gu define normalidade como “a supressão de todas as restrições relacionadas à Covid-19 para a maioria dos estados dos EUA”.

“Ficou claro que não alcançaremos a imunidade de rebanho em 2021, pelo menos definitivamente não em todo o país”, refere. “E eu creio que é importante, especialmente se está a tentar inspirar confiança, que criemos caminhos adequados para quando possamos voltar ao normal. Não deveríamos estar vinculando isso a uma meta irreal, como alcançar a imunidade coletiva. Ainda estou prudentemente otimista de que a minha previsão original em fevereiro, de um retorno ao normal no verão, será válida”.

No início de março, empacotou tudo — percebeu que havia feito todas as contribuições que podia. “Eu queria dar um passo atrás e deixar os outros modeladores e especialistas fazerem o seu trabalho”, refere. “Não quero perturbar o espaço”.

Ainda está de olho nos dados, fazendo pesquisas e análises — nas variantes, no desdobramento da vacina e na quarta onda. “Se vir algo que seja particularmente problemático ou preocupante que eu acho que as pessoas não estão a falar, irei definitivamente fazer algo”. Mas, por enquanto, está a concentrar-se em outros projetos, como o “YOLO Stocks”, uma plataforma de análise de cotações da bolsa. O seu principal trabalho de pandemia é como membro do grupo de assessoria técnica da Organização Mundial da Saúde sobre avaliação de mortalidade da Covid-19, onde ele partilha a sua experiência profissional de fora.

“Definitivamente aprendi muito no ano passado”, diz Gu. “Foi muito revelador”.

Lição #1: Concentre-se nos fundamentos

“Do ponto de vista da ciência de dados, os meus modelos mostraram a importância da simplicidade, que muitas vezes é subestimada”, diz Gu. O seu modelo de previsão de morte era simples não apenas no seu design — o componente SEIR com uma camada de machine learning — mas também na sua abordagem bastante reduzida “de baixo para cima” em relação aos dados de entrada. Isso significa começar do mínimo e adicionar complexidade conforme necessário”, diz ele. “O meu modelo usa apenas mortes passadas para prever mortes futuras. Não usa nenhuma outra fonte de dados real”.

Gu notou que outros modelos se basearam numa variedade eclética de dados sobre casos, hospitalizações, testes, mobilidade, uso de máscara, comorbidades, distribuição etária, dados demográficos , sazonalidade de pneumonia, taxa anual de mortalidade por pneumonia, densidade populacional, poluição do ar, altitude, dados de tabagismo, contatos auto relatados, tráfego de passageiros de companhias aéreas, pontos de atendimento, termómetros inteligentes, publicações no Facebook, pesquisas do Google e muito mais.

“Há essa crença de que se adicionar mais dados ao modelo ou torná-lo mais sofisticado, o modelo terá um desempenho melhor”, diz. “Mas em situações reais como a pandemia, onde os dados são muito ruidosos, é desejável manter as coisas o mais simples possível”.

“Decidi desde o início que as mortes passadas são a melhor previsão de mortes futuras. É muito simples: entrada e saída. Adicionar mais fontes de dados apenas tornará mais difícil extrair o sinal que precisamos do ruído”.

Lição #2: Minimize as suposições

Gu considera que teve uma vantagem em solucionar o problema ao utilizar uma folha em branco. “O meu objetivo era apenas seguir os dados da Covid para aprender sobre o coronavírus”, admite. “Esse é um dos principais benefícios da perspectiva de quem está de fora”.

Mas, por não ser um epidemiologista, Gu também precisava ter certeza de que não estava a fazer suposições incorretas ou imprecisas. “O meu papel é projetar o modelo de forma que ele possa aprender as suposições no meu lugar”, refere.

“Quando surgem novos dados que vão contra nossas crenças, às vezes tendemos a negligenciar esses novos dados ou ignorá-los, e isso pode causar repercussões no futuro”, observa ele. “Certamente fui vítima disso e sei que muitas outras pessoas também caíram nessa”.

“Portanto, estarmos cientes do potencial preconceito que temos e reconhecê-lo, e sermos capazes de ajustar nossos antecedentes – ajustando as nossas crenças se novos dados as refutarem – é muito importante, especialmente num ambiente de rápida evolução como o que vimos com a Covid-19”.

Lição #3: Teste a hipótese

“O que vi nos últimos meses é que qualquer um pode fazer afirmações ou manipular dados para se encaixar na narrativa do que eles querem acreditar”, diz Gu. Isso destaca a importância de simplesmente fazer hipóteses testáveis.

“Para mim, essa é a base de minhas projeções e previsões. Tenho um conjunto de suposições e, se elas forem verdadeiras, é isso que prevemos que acontecerá no futuro. E se as suposições acabarem erradas, então é claro que temos que admitir que as suposições que fazemos não são verdadeiras e ajustar-nos de acordo. Se não fizer hipóteses testáveis, não há como mostrar se está realmente certo ou errado”.

Lição #4: Aprenda com os erros

“Nem todas as projeções que fiz estavam corretas”, diz Gu. Em maio de 2020, projetou 180.000 mortes nos Estados Unidos até o início de agosto. “É um número muito mais alto do que vimos”, lembra (houve cerca de 155.000 mortes). A sua hipótese testável provou-se incorreta — “e isso forçou-me a ajustar as minhas suposições”.

Na época, Gu estava a usar uma taxa fixa de mortalidade por infecção de aproximadamente 1% como uma constante no simulador SEIR. Quando, no verão, reduziu a taxa de mortalidade por infecção para cerca de 0,4% (e depois para cerca de 0,7%), as suas projeções voltaram a mostrar um resultado mais realista.

Lição #5: Envolva os críticos

“Nem todos vão concordar com as minhas ideias, e eu reconheço isso”, diz Gu, que usou o Twitter para postar suas projeções e análises. “Tento responder às pessoas o máximo que posso e defender o meu posicionamento, além de debater com elas. Isso força-o a pensar sobre quais são as suas premissas e por que acha que estão corretas”.

“Isso remete ao viés de confirmação”, alerta. “Se eu não for capaz de defender o meu posicionamento adequadamente, então é de facto a afirmação certa, e eu deveria mesmo estar a fazer essas afirmações? Isso ajuda-me a entender, ao me envolver com outras pessoas, como pensar sobre esses problemas. Quando outras pessoas apresentam evidências que contradizem os meus posicionamentos, devo ser capaz de reconhecer quando posso estar errado em algumas de minhas suposições. E isso de facto ajudou-me tremendamente a melhorar o meu modelo”.

Lição #6: Exercite o ceticismo saudável

“Agora sou muito mais cético em relação à ciência — e isso não é mau”, diz Gu. “Penso ser importante questionar sempre os resultados, mas de forma saudável. É uma linha ténue. Porque muitas pessoas simplesmente rejeitam a ciência, e essa também não é a maneira de proceder”.

“Mas eu acho que também é importante não apenas confiar cegamente na ciência”, continua. “Os cientistas não são perfeitos.” É apropriado, diz, se algo não parece certo, fazer perguntas e encontrar explicações. “É importante ter perspectivas diferentes. Se há algo que aprendemos no ano passado, é que ninguém está 100% certo o tempo todo”.

“Não posso falar por todos os cientistas, mas o meu trabalho é isolar todo o ruído e chegar à verdade”, diz ele. “Não estou a dizer que fui perfeito no ano passado. Eu estive errado muitas vezes. Mas acho que todos nós podemos aprender a abordar a ciência como um método de encontrar a verdade, ao invés de encará-la como a própria verdade”.

Tópicos