Examinar o corpo para identificar e diagnosticar o cancro baseia-se essencialmente na deteção de padrões. Os radiologistas utilizam raios X e imagens de ressonância magnética para visualizar tumores. Já os patologistas analisam tecidos de rins, fígado e outras áreas ao microscópio, procurando padrões que indiquem a gravidade do cancro, a eficácia de determinados tratamentos e a potencial disseminação da doença.
Em teoria, a Inteligência Artificial deveria ser excelente para ajudar nesse processo. “O nosso trabalho é o reconhecimento de padrões”, afirma Andrew Norgan, patologista e diretor clínico da plataforma de patologia digital da Mayo Clinic. “Analisamos a lâmina e reunimos informações comprovadamente importantes.”
A análise visual é uma área em que a IA tem registado grandes avanços desde que os primeiros modelos de reconhecimento de imagem começaram a emergir há quase 15 anos. Embora nenhum modelo seja perfeito, é possível imaginar um futuro em que um algoritmo poderoso consiga detetar algo que um patologista humano não viu ou, pelo menos, acelerar o processo de diagnóstico. Atualmente, estão a ser desenvolvidos vários esforços para criar esse modelo — pelo menos sete novas tentativas apenas no último ano — mas todos permanecem experimentais. O que será necessário para que alcancem um nível adequado para aplicação clínica?
Os detalhes sobre o esforço mais recente nesse sentido, liderado pela empresa de saúde baseada em IA Aignostics em parceria com a Mayo Clinic, foram publicados no arXiv no início deste mês. O artigo ainda não foi revisto por pares, mas revela muitos dos desafios envolvidos na introdução desta tecnologia em ambientes clínicos reais.
O modelo, denominado Atlas, foi treinado com 1,2 milhões de amostras de tecido provenientes de 490.000 casos. A sua precisão foi testada contra seis outros modelos líderes de patologia baseados em IA. Estes modelos competem em testes padronizados, como a classificação de imagens de cancro da mama ou a categorização de tumores. Nestes testes, as previsões do modelo são comparadas com as respostas corretas dadas por patologistas humanos.
O Atlas superou os modelos concorrentes em seis dos nove testes. Alcançou a melhor pontuação na categorização de tecido colorretal canceroso, chegando à mesma conclusão que os patologistas humanos em 97,1% das vezes. Contudo, numa outra tarefa — a classificação de tumores em biópsias de cancro da próstata — o Atlas obteve apenas 70,5%, apesar de ter superado os restantes modelos. A sua média em nove benchmarks revelou uma taxa de concordância com especialistas humanos de 84,6%.
Mas o que significa isto na prática? A melhor forma de compreender a condição das células cancerígenas num tecido continua a ser a análise de um patologista humano. Portanto, este é o padrão de referência contra o qual os modelos de IA são avaliados. Embora os melhores modelos se aproximem do desempenho humano em certas tarefas, ainda ficam aquém noutras. Então, qual deveria ser a precisão mínima para que um sistema de IA seja clinicamente útil?
“Noventa por cento provavelmente não é suficiente. É necessário um desempenho ainda melhor”, afirma Carlo Bifulco, diretor clínico da Providence Genomics e cofundador do GigaPath, um dos outros modelos de patologia de IA analisados no estudo da Mayo Clinic. No entanto, Bifulco destaca que mesmo modelos que não atingem a perfeição podem ser úteis a curto prazo, ajudando os patologistas a acelerar o seu trabalho e a chegar a diagnósticos mais rapidamente.
Principais obstáculos para um melhor desempenho
O primeiro grande desafio prende-se com os dados de treino.
“Menos de 10% dos laboratórios de patologia nos EUA estão digitalizados”, explica Norgan. Isto significa que a maioria das amostras de tecido ainda são preparadas em lâminas físicas, analisadas ao microscópio e depois arquivadas, sem serem digitalizadas para utilização em modelos de IA. Embora os laboratórios europeus tendam a estar mais avançados nesse sentido, e haja esforços para criar bases de dados partilhadas com amostras de tecido para treino de modelos, o volume de dados ainda é insuficiente.
Sem conjuntos de dados abrangentes e diversos, os modelos de IA têm dificuldade em identificar a grande variedade de anomalias que os patologistas humanos conseguem interpretar. Isso inclui doenças raras, como destaca Maximilian Alber, cofundador e CTO da Aignostics. “Se pesquisar nos repositórios públicos por amostras de tecidos de doenças particularmente raras, encontrará talvez 20 amostras em 10 anos”, diz ele.
Já em 2022, a Mayo Clinic previu que essa escassez de dados de treino seria um problema. Como resposta, decidiu digitalizar todas as suas amostras de patologia, incluindo 12 milhões de lâminas de arquivo, algumas com décadas de existência (com consentimento dos pacientes para uso em investigação). A instituição contratou uma empresa para construir um robô capaz de fotografar tecidos em alta resolução, processando até um milhão de amostras por mês. Esse esforço permitiu à equipa reunir 1,2 milhões de amostras de elevada qualidade, que foram utilizadas para treinar o modelo Atlas.
O segundo grande desafio prende-se com o tamanho das imagens de biópsias. As amostras de tecido são microscópicas — geralmente com apenas alguns milímetros de diâmetro — mas quando digitalizadas, as suas imagens podem conter mais de 14 mil milhões de pixéis. Isso torna-as cerca de 287.000 vezes maiores do que as imagens utilizadas para treinar os melhores modelos de reconhecimento de imagem baseados em IA até à data.
“Obviamente, isso implica enormes custos de armazenamento”, observa Hoifung Poon, investigador de IA da Microsoft que colaborou com Bifulco no desenvolvimento do GigaPath, apresentado na revista Nature no ano passado. Além disso, exige decisões estratégicas sobre que partes da imagem devem ser usadas para treino da IA e quais podem ser ignoradas sem comprometer a precisão do diagnóstico. Para criar o Atlas, a Mayo Clinic utilizou um método denominado mosaic approach, que divide a amostra em múltiplas secções antes de alimentá-las ao modelo. A forma ideal de selecionar esses fragmentos ainda não está totalmente clara, e diferentes abordagens podem impactar os resultados.
O terceiro grande desafio prende-se com os benchmarks mais relevantes para avaliação do desempenho da IA na deteção do cancro. Os investigadores do Atlas testaram o modelo num domínio particularmente complexo: métricas moleculares. O objetivo era identificar padrões em imagens de amostras de tecido que pudessem indicar o que ocorre a nível molecular.
Um exemplo específico: os genes responsáveis pela reparação de erros na replicação do ADN são fundamentais na prevenção do cancro. Quando falham, podem permitir a proliferação de células cancerígenas.
“Alguns patologistas podem dizer que sentem um ‘pressentimento’ quando suspeitam de falhas na reparação de ADN, com base apenas na aparência do tecido”, explica Norgan. No entanto, os patologistas não se baseiam apenas na intuição; eles realizam testes moleculares para confirmar suspeitas. E se, em vez disso, pudéssemos usar IA para prever o que acontece ao nível molecular?
Até agora, os resultados não são animadores. O Atlas obteve uma precisão média de 44,9% nestes testes — o melhor desempenho registado até ao momento, mas ainda insuficiente para uma aplicação prática.
Bifulco considera que o Atlas representa um progresso incremental, mas significativo. “Infelizmente, todos os modelos parecem estar presos num nível semelhante”, admite. “Precisamos de abordagens diferentes no desenvolvimento de modelos e de conjuntos de dados ainda maiores para avançar de forma mais significativa.”