Inteligência artificial em português pode fortalecer o uso de dados na saúde

Estudo analisa como modelos de linguagem treinados em português estão sendo usados para apoiar pesquisa, análise de dados e aplicações clínicas

A inteligência artificial vem transformando rapidamente a forma como grandes volumes de dados são analisados na área da saúde. Um estudo recente conduzido por pesquisadores do Departamento de Informática em Saúde da Escola Paulista de Medicina da Unifesp analisou como modelos de linguagem treinados em português estão sendo utilizados em aplicações de saúde.

O trabalho realizou uma revisão sistemática da literatura, examinando pesquisas publicadas entre 2020 e 2025 sobre o uso de grandes modelos de linguagem (Large Language Models – LLMs) aplicados ao processamento de textos na área da saúde.

Esses modelos utilizam representações vetoriais de palavras, chamadas embeddings contextuais, que permitem capturar relações semânticas entre termos em grandes coleções de textos. Com isso, podem ser aplicados em diversas tarefas de processamento de linguagem natural.

Entre as aplicações identificadas estão:

O estudo identificou 32 modelos aplicados à saúde em língua portuguesa, indicando crescimento significativo das pesquisas nessa área nos últimos anos.

Grande parte desses modelos é baseada em arquiteturas derivadas de BERT, especialmente BERTimbau, mBERT e BioBERTpt, que são posteriormente adaptadas ao domínio da saúde por meio de técnicas como fine-tuning e treinamento adaptado ao domínio.

Apesar dos avanços recentes, o estudo aponta limitações no desenvolvimento de LLMs na área médica. Um deles é a escassez de bases de dados médicas abertas em português, o que dificulta a comparação entre modelos e a reprodução dos estudos.