Essa foi uma das questões centrais levantadas por um estudo publicado recentemente, intitulado “Digital Pathway Curation (DPC): a comparative pipeline to assess the reproducibility, consensus and accuracy across Gemini, PubMed, and scientific reviewers in biomedical research”. Inserido no contexto do Molecular Target Project, o trabalho surgiu diante das dificuldades enfrentadas por pesquisadores e estudantes na curadoria manual de termos biomédicos, especialmente os relacionados às vias biológicas do Reactome — um banco de dados online, gratuito e amplamente utilizado, que funciona como uma enciclopédia de vias celulares, descrevendo detalhadamente processos como a conversão de nutrientes em energia. Curar esses termos é como organizar uma vasta biblioteca de informações sobre o funcionamento celular, estruturando dados em pathways (ou “caminhos”) que mostram como moléculas interagem para desempenhar funções específicas no organismo. Esse processo envolve verificar, organizar e anotar tais mapas com precisão e clareza, tornando-os úteis para a pesquisa biomédica.
Figura 1: qual fonte de informação oferece a melhor reprodutibilidade e precisão para pesquisa biomédica?
No estudo, os autores elaboraram perguntas com base em termos biomédicos específicos com o objetivo de avaliar as respostas fornecidas por modelos de inteligência artificial, como o Gemini, da Google — um exemplo de LLM (Large Language Model), que são algoritmos treinados com grandes volumes de texto para aprender a interpretar e gerar linguagem de forma semelhante à humana. A análise baseou-se em respostas consenso geradas para quatro variações semânticas de cada termo biomédico ou pathway. Um dos testes comparou o consenso destas 4 respostas (consenso semântico) com os resultados obtidos por meio de buscas automatizadas na PubMed — uma base que reúne milhões de artigos científicos nas áreas da saúde e biologia — e com o consenso da curadoria realizada por especialistas humanos (pesquisadores e alunos). Os resultados, apresentados por Lichtenstein e colaboradores — entre os quais o Prof. Luciano Rodrigo Lopes, do Departamento de Informática em Saúde da Escola Paulista de Medicina (EPM/Unifesp) — indicaram que os modelos Gemini 1.5-pro e 1.5-flash demonstraram alta reprodutibilidade e precisão na análise de dados biomédicos complexos.
Para isso, foram utilizados dois conjuntos de dados ômicos — um de proteômica relacionado à COVID-19 e outro de transcriptômica proveniente de microarranjos de meduloblastoma — com o objetivo de calcular genes diferencialmente expressos (DEGs) e identificar pathways enriquecidos com base no Reactome. As abordagens ômicas envolvem o estudo em larga escala de moléculas biológicas, genes ou proteínas, oferecendo uma visão abrangente dos processos celulares através da técnica de enriquecimento de vias (GSEA, gene set enrichment analysis). A identificação dos DEGs permite calcular as vias enriquecidas e comparar esteas vias para o grupo de pessoas saudáveis e doentes. No contexto do estudo, as vias preditas foram curadas com IA, pesquisa automatizada na PubMed e por humanos. Ou seja, cada uma destas fontes tiverem que responder se tais vias estão relacionadas com a doença e seus diversos graus de severidade.
Figura 2 - Processo de curadoria de caminhos digitais
Além disso, um conjunto menor de dados (vias enriquecidades previamente escolhidas) foi utilizado para calcular o chamado consenso por crowdsourcing (Crowdsourcing Consensus, CSC), com base no consenso do Gemini, resposta da PubMed e consenso humano. Ou seja, o CSC é um consenso destas três fontes, ou um "consenso dos consensos". O CSC foi empregado como padrão-ouro (gold standard) para medir a acurácia de cada abordagem. Essa metodologia revelou que os modelos Gemini atingiram acurácia de aproximadamente 87%, o que demonstra que LLMs generalistas, mesmo sem refinamento (novo treinamento específico), podem ser ferramentas confiáveis no suporte à pesquisa biomédica, oferecendo alta reprodutibilidade e precisão na análise de associação entre pathways e doenças.
No entanto, o estudo também discute limitações importantes do CSC como método de avaliação de LLMs, destacando a necessidade de mais dados e o aprimoramento das métricas. Um desafio prático observado foi a descontinuação de modelos durante os testes, como o encerramento do Gemini 1.0-pro, o que evidencia a necessidade de suporte contínuo ou mesmo do treinamento de modelos próprios, como o refinamento do LLaMA - um LLM de código aberto da Meta - com novo treinamento com resumos e textos biomédicos.
Em resumo, embora as LLMs ainda não substituam recursos como a PubMed, mas elas já oferecem apoio valioso à pesquisa biomédica. Novos métodos e experimentos são necessários para avaliar com mais precisão o desempenho dessas ferramentas. No entanto, os resultados atuais indicam que, quando as perguntas são bem formuladas, os aplicativos de inteligência artificial podem ser fontes confiáveis e úteis de informação científica.
Para um treinamento mais específico em como criar queries na PubMed e em sites de IA, acesse https://pubmed-and-ai.readthedocs.io/pt-br/latest/index.html .
Referência:
Digital Pathway Curation (DPC): a comparative pipeline to assess the reproducibility, consensus and accuracy across Gemini, PubMed, and scientific reviewers in biomedical research. DOI: https://doi.org/10.48550/arXiv.2505.01259
Autoria do texto original: PhD Flavio Lichtenstein (Pesquisador de Bioinformática de Biologia de Sistemas, Instituto Butantan e ex-aluno do DIS - Unifesp, e-mail: flavio.lichtenstein@butantan.gov.br)
Revisão técnica: Prof. Luciano Rodrigo Lopes (Docente do Departamento de Informática em Saúde - EPM/Unifesp)
Adaptação para divulgação científica: Andréa Pereira Simões Pelogi (Comunicação)
Fonte: Digital Pathway Curation (DPC): a comparative pipeline to assess the reproducibility, consensus and accuracy across Gemini, PubMed, and scientific reviewers in biomedical research. DOI: https://doi.org/10.48550/arXiv.2505.01259
Data de Publicação: 30/06/2025
Aviso: As informações apresentadas neste artigo têm caráter informativo e não substituem orientação profissional especializada. O Departamento de Informática em Saúde não se responsabiliza por eventuais erros ou interpretações incorretas do conteúdo divulgado.