Inteligência artificial em português pode fortalecer o uso de dados na saúde

Estudo analisa como modelos de linguagem treinados em português estão sendo usados para apoiar pesquisa, análise de dados e aplicações clínicas

A inteligência artificial vem transformando rapidamente a forma como grandes volumes de dados são analisados na área da saúde. Um estudo recente conduzido por pesquisadores do Departamento de Informática em Saúde da Escola Paulista de Medicina da Unifesp analisou como modelos de linguagem treinados em português estão sendo utilizados em aplicações de saúde.

O trabalho realizou uma revisão sistemática da literatura, examinando pesquisas publicadas entre 2020 e 2025 sobre o uso de grandes modelos de linguagem (Large Language Models – LLMs) aplicados ao processamento de textos na área da saúde.

Esses modelos utilizam representações vetoriais de palavras, chamadas embeddings contextuais, que permitem capturar relações semânticas entre termos em grandes coleções de textos. Com isso, podem ser aplicados em diversas tarefas de processamento de linguagem natural.

Entre as aplicações identificadas estão:

O estudo identificou 32 modelos aplicados à saúde em língua portuguesa, indicando crescimento significativo das pesquisas nessa área nos últimos anos.

Grande parte desses modelos é baseada em arquiteturas derivadas de BERT, especialmente BERTimbau, mBERT e BioBERTpt, que são posteriormente adaptadas ao domínio da saúde por meio de técnicas como fine-tuning e treinamento adaptado ao domínio.

Apesar dos avanços recentes, o estudo aponta limitações no desenvolvimento de LLMs na área médica. Um deles é a escassez de bases de dados médicas abertas em português, o que dificulta a comparação entre modelos e a reprodução dos estudos.

Outro ponto é que muitos trabalhos utilizam dados provenientes de redes sociais, que podem refletir percepções e relatos de usuários, sem validação clínica, o que exige cautela na interpretação das análises.

Além disso, questões relacionadas à privacidade e proteção de dados clínicos representam um desafio central para o desenvolvimento e uso dessas tecnologias.

A revisão também identificou uma lacuna na adoção de arquiteturas mais recentes de LLMs. Modelos modernos como T5, BART, Qwen, DeepSeek e outros sistemas generativos ainda aparecem pouco nas aplicações em português na área da saúde, indicando oportunidades para pesquisas futuras que explorem essas arquiteturas em tarefas clínicas e biomédicas.

Mesmo com essas limitações, o estudo indica que o desenvolvimento de modelos de linguagem adaptados à realidade linguística e cultural dos países de língua portuguesa pode ampliar aplicações em áreas como análise de prontuários eletrônicos, apoio à decisão clínica e gestão de sistemas de saúde.

Ficha Técnica

Artigo Original:  Large language models in portuguese for healthcare: a systematic review

Andre Massahiro Shimaoka,  Antonio Carlos da Silva Junior,  José Marcio Duarte, Thiago Bulhões da Silva Costa,  Ivan Torres Pisa,  Luciano Rodrigo Lopes,  Paulo Bandiera-Paiva

Autor matéria: Andréa Pereira Simões Pelogi (Departamento de Informática em Saúde  (DIS) da Escola Paulista de Medicina (EPM)/Unifesp).

Revisão técnica: Andre Massahiro Shimaoka,  Antonio Carlos da Silva Junior,  José Marcio Duarte (Pesquisadores do DIS/EPM).

Adaptação para divulgação científica: Andréa Pereira Simões Pelogi (Comunicação) .

Data de Publicação: 12/03/2026

Aviso: As informações apresentadas neste artigo têm caráter informativo e não substituem orientação profissional especializada. O Departamento de Informática em Saúde não se responsabiliza por eventuais erros ou interpretações incorretas do conteúdo divulgado.


Referências

[1] Shimaoka, A. M., da Silva Junior, A. C., Duarte, J. M., da Silva Costa, T. B., Pisa, I. T., Lopes, L. R., & Bandiera-Paiva, P. (2025). Large Language Models in Portuguese for Healthcare: A Systematic Review.