Projeto coordenado pelos professores Paulo Bandiera Paiva e Maria Elisabete Salvador foi selecionado em edital nacional do LNCC e vai treinar grandes modelos de linguagem para prever riscos de abusos e apoiar equipes da atenção primária do SUS em São Paulo.
O Departamento de Informática em Saúde da Escola Paulista de Medicina (EPM/Unifesp) foi selecionado para utilizar o supercomputador Santos Dumont, instalado no Laboratório Nacional de Computação Científica (LNCC), em Petrópolis (RJ). Trata-se do computador científico mais potente do país, com milhares de processadores e placas gráficas de alto desempenho, capaz de executar trilhões de cálculos por segundo e atualmente voltado, entre outras frentes, a aplicações de inteligência artificial em larga escala.
O projeto aprovado, intitulado “Inteligência Artificial em apoio à promoção da saúde, predição de riscos de abusos, violência, doenças e agravos de mulheres em situação de vulnerabilidade social e emocional”, é coordenado pelo professor Paulo Bandiera Paiva, em parceria com a professora Maria Elisabete Salvador. A iniciativa foca mulheres atendidas em Unidades Básicas de Saúde (UBS) da Estratégia Saúde da Família (ESF) na atenção primária do Sistema Único de Saúde (SUS), campo responsável por ações contínuas de promoção, prevenção e cuidado próximo ao território.
O coração do estudo é o uso de técnicas avançadas de Inteligência Artificial, em especial grandes modelos de linguagem (LLMs), embeddings semânticos e análise preditiva de dados clínicos e sociais. Esses recursos serão usados para identificar, a partir de prontuários e registros de contexto, sinais de risco de violência, abusos e outros agravos à saúde de mulheres em situação de vulnerabilidade social e emocional, sem substituir o julgamento profissional, mas oferecendo uma triagem apoiada em evidências. O treinamento dos modelos incluirá processos de fine-tuning para adaptar algoritmos como BERT, BERTimbau e LLaMA à realidade do SUS e à linguagem usada nos serviços de saúde.
O projeto prevê duas frentes tecnológicas principais. A primeira é o desenvolvimento de modelos preditivos para classificar o nível de risco de violência e abusos com base em dados estruturados e textos de registros clínicos, usando técnicas de Processamento de Linguagem Natural (NLP), embeddings e métodos de aprendizado de máquina. A segunda é a criação de um chatbot educativo e de apoio à equipe de saúde, capaz de responder dúvidas com base em protocolos clínicos e documentos oficiais, utilizando geração aumentada por recuperação (RAG), indexação semântica com FAISS e LLMs ajustados por fine-tuning para oferecer respostas contextualizadas e seguras.
Na prática, os pesquisadores vão utilizar um conjunto robusto de bibliotecas de software livre, como Transformers, Keras, PyTorch ou TensorFlow, SentenceTransformers, scikit-learn, pandas, numpy, NLTK, spaCy, ferramentas de RAG com FAISS, bem como frameworks de orquestração de IA como LangChain e APIs web em FastAPI ou Flask. Esses componentes formarão a aplicação “IA – Violência contra mulheres”, escrita em Python, com mecanismos de checkpoint e retomada, desenhada para rodar em ambiente de alto desempenho com múltiplas execuções paralelas. O uso do Santos Dumont permitirá testar diferentes arquiteturas, ajustar parâmetros e comparar modelos em até dez tarefas simultâneas, combinando classificação, geração de texto e avaliação em vários conjuntos de dados.
Os experimentos incluem o ajuste fino de modelos pré-treinados como BERT, BioBERT, BERTimbau, DeepSeek e LLaMA, usando técnicas eficientes de fine-tuning como PEFT e LoRA para reduzir o consumo de memória e acelerar o treinamento. Para o componente de chatbot, o grupo já validou um protótipo inicial em ambiente de baixo custo, com embeddings all-MiniLM-L12-v2, FAISS para busca semântica e um modelo compacto de geração, demonstrando viabilidade técnica e apontando a necessidade de infraestrutura mais robusta para escalar os testes. Com o acesso ao supercomputador, será possível ampliar o tamanho dos modelos, treinar por mais tempo e explorar variações arquiteturais que hoje são inviáveis em recursos locais.
A justificativa para o uso do Santos Dumont está diretamente ligada às limitações de hardware disponíveis no departamento e em plataformas gratuitas como o Kaggle, onde o tempo de uso de GPU é restrito e o ambiente é desligado automaticamente após períodos curtos de inatividade. No LNCC, o projeto contará com nós de CPU e GPU dedicados, alinhados às características do Santos Dumont, com estimativa de uso de até 30 mil Unidades de Alocação (UAs) em nós de CPU e 30 mil adicionais em nós de CPU+GPU, além de espaço de armazenamento temporário (“scratch”) de 1 TB e 100 GB de área permanente para códigos e bibliotecas. Cada tarefa de treinamento poderá utilizar de 4 a 16 núcleos de CPU, entre 64 GB e 256 GB de memória e cerca de 12 horas de execução, o que viabiliza ciclos de experimentação intensivos e bem monitorados.
Do ponto de vista científico, a expectativa é que o projeto produza novos métodos de predição de risco social e em saúde utilizando NLP, embeddings e RAG, com publicações acadêmicas e contribuições metodológicas para o campo da IA aplicada à saúde. Em termos práticos e transformadores, a meta é que os modelos resultantes possam, no futuro, ser integrados a sistemas de informação do SUS, apoiando as equipes na priorização de atendimentos, na detecção precoce de situações de violência e na oferta de cuidado mais centrado na usuária, sem abrir mão da privacidade e da ética.
Ao comentar a aprovação, o professor Paulo Bandiera Paiva destaca que a violência e os abusos contra mulheres seguem em níveis inaceitáveis no país, sobretudo entre aquelas em maior vulnerabilidade social e econômica, e que a proposta do projeto é justamente usar a inteligência artificial como aliada das equipes de saúde da família, ajudando a revelar sinais de risco muitas vezes escondidos nos registros clínicos e sociais. Para a professora Elisabeth (Bete) Salvador, o resultado representa um marco para o Departamento de Informática em Saúde, ao colocar a universidade pública na fronteira do uso ético da IA em defesa dos direitos das mulheres e na construção de soluções que cheguem, de fato, à ponta do SUS, nas Unidades Básicas de Saúde e na Estratégia Saúde da Família, onde essas mulheres buscam acolhimento em seus territórios.