Nos últimos anos, várias investigações mostraram que o deep learning pode corresponder ao desempenho de especialistas na hora de interpretar imagens médicas, como a detecção precoce de cancro e diagnóstico de doenças oculares. Mas também há motivos para cautela. Outra investigação mostrou que o deep learning tende a perpetuar a discriminação. Com um sistema de saúde já cheio de disparidades, aplicações mal desenhadas em termos de deep learning podem piorar isso.
Agora, um novo artigo publicado na Nature Medicine está a propor uma maneira de desenvolver algoritmos médicos que podem ajudar a reverter, ao invés de exacerbar, a desigualdade existente. A chave, diz Ziad Obermeyer, um professor associado da UC Berkeley que supervisionou a pesquisa, é parar de treinar algoritmos para corresponder ao desempenho humano especializado.
O artigo analisa um exemplo clínico específico das disparidades que existem no tratamento da osteoartrite do joelho, uma doença que causa dor crónica. Avaliar a gravidade dessa dor ajuda os médicos a prescreverem o tratamento certo, incluindo fisioterapia, medicamentos ou cirurgia. Isso é tradicionalmente feito por um radiologista que analisa um raio-X do joelho do paciente e classifica a sua dor no grau de Kellgren-Lawrence (KLG), que calcula os níveis de dor com base na presença de diferentes características radiográficas, como o grau de cartilagem ausente ou dano estrutural.
Mas dados recolhidos pelo Instituto Nacional de Saúde mostraram que os médicos que usam esse método sistematicamente classificam os pacientes negros muito abaixo da intensidade da dor que dizem estar a sentir. Os pacientes relatam os seus níveis de dor por meio de uma pesquisa que pergunta sobre a dor durante várias atividades, como endireitar totalmente o joelho. Mas esses níveis de dor auto relatados são ignorados em detrimento da pontuação KLG que o radiologista emite para prescrever o tratamento. Em outras palavras, pacientes negros que apresentam a mesma quantidade de cartilagem perdida que pacientes brancos relatam níveis mais elevados de dor.
Isso tem incomodado os especialistas médicos. Uma hipótese é que os pacientes negros podem estar a relatar níveis mais altos de dor para que os médicos os tratem mais seriamente. Mas há uma explicação alternativa. A própria metodologia KLG pode ser tendenciosa. Foi desenvolvida há várias décadas com base na população britânica branca. Alguns especialistas médicos argumentam que a lista de marcadores radiográficos que os médicos devem procurar pode não incluir todas as possíveis fontes físicas de dor de uma população diversa. Dito de outra forma, pode haver indicadores radiográficos de dor que aparecem mais frequentemente em pessoas negras que simplesmente não fazem parte da categoria KLG.
Para testar essa possibilidade, os investigadores treinaram um modelo de deep learning para prever o nível de dor relatado pelo paciente a partir da sua radiografia de joelho. Se o modelo resultante tivesse uma precisão terrível, isso sugeriria que a dor auto relatada é bastante arbitrária. Mas se o modelo tivesse uma precisão realmente boa, isso forneceria evidências de que a dor auto relatada está de facto correlacionada com os marcadores radiográficos no raio-x.
Depois de executar várias experiências, incluindo alguns projetados para destacar quaisquer fatores de confusão, os investigadores descobriram que o modelo de deep learning era muito mais preciso do que o KLG na previsão dos níveis de dor autorelatados, especialmente para pacientes negros. Isso reduziu quase pela metade a disparidade racial em cada nível de dor.
O objetivo não é necessariamente começar a usar esse algoritmo em um ambiente clínico. Mas, ao superar a metodologia KLG, o estudo revelou que a forma padrão de medir a dor é falha, a um custo muito maior para os negros. Isso deveria alertar a comunidade médica para investigar quais marcadores radiográficos o algoritmo pode estar levando em conta e atualizar sua metodologia de pontuação.
“Na verdade, destaca uma parte realmente emocionante de onde esses tipos de algoritmos podem se encaixar no processo de descoberta médica”, diz Obermeyer. “Indica-nos se há algo aqui que vale a pena olhar e que não compreendemos. Isso prepara o terreno para os humanos intervirem e, usando esses algoritmos como ferramentas, tentarem descobrir o que está a acontecer”.
“O interessante desse artigo é que pensa nas coisas de uma perspectiva completamente diferente”, refere Irene Chen, investigadora do MIT que estuda como reduzir as iniquidades de saúde no machine learning e não estava envolvida no estudo. Em vez de treinar o algoritmo com base em conhecimento especializado bem estabelecido, diz, os investigadores optaram por tratar a autoavaliação do paciente como um indicador verdadeiro. Assim, tal revelou lacunas importantes no que a área médica geralmente considera ser a medida de dor mais “objetiva”.
“Esse era exatamente o segredo”, concorda Obermeyer. Se os algoritmos forem treinados apenas para corresponder ao desempenho de um especialista, simplesmente perpetuarão as lacunas e desigualdades existentes. “Este estudo é uma amostra de um processo mais geral, o qual somos cada vez mais capazes de usar na medicina para gerar novos conhecimentos”.
Artigo de Karen Hao, Senior Reporter – MIT Technology Review EUA (adaptado)