Informática em Saúde - desvendando dados

Desvendando os dados da saúde: como a tecnologia pode ajudar o SUS a cuidar melhor dos pacientes

Pesquisadores do DIS/EPM criam ferramenta para organizar e analisar milhões de informações do Sistema Único de Saúde

Imagine a quantidade gigantesca de informações geradas todos os dias no Sistema Único de Saúde (SUS): consultas, exames, internações, medicamentos. São milhões de dados que, se bem organizados e analisados, podem se transformar em um tesouro para melhorar a saúde dos brasileiros. No entanto, lidar com esse volume imenso de informações é um desafio complexo.

É exatamente para resolver esse problema que pesquisadores do Departamento de Informática em Saúde da Escola Paulista de Medicina da Universidade Federal de São Paulo (EPM/Unifesp) desenvolveram uma solução: um sistema automatizado capaz de coletar, organizar e preparar esses dados de forma eficiente e escalável. O estudo, publicado recentemente, foca especificamente nos dados de produção ambulatorial do SUS, que registram todas as consultas e procedimentos realizados sem internação hospitalar.

O SUS é um dos maiores sistemas de saúde pública do mundo, e a quantidade de dados que ele gera é proporcional à sua dimensão. O Sistema de Informações Ambulatoriais (SIA-SUS), por exemplo, armazena detalhes sobre milhões de atendimentos. O problema é que esses dados vêm de diversas fontes, em formatos variados, e precisam ser padronizados e enriquecidos antes de poderem ser usados para análises que realmente ajudem na tomada de decisões. A infraestrutura computacional local muitas vezes não consegue dar conta desse processamento em larga escala.

A solução: Um

“Pipeline” de dados inteligentes

A solução criada pelos pesquisadores é um “pipeline” de ETL (Extract, Transform, Load), que em português significa extração, transformação e carga. Pense nisso como uma esteira automatizada que pega os dados brutos do SUS, limpa, organiza e os prepara para serem usados em análises. Tudo isso acontece em uma arquitetura de computação em nuvem, o que significa que o sistema é flexível e pode lidar com um volume crescente de informações sem perder a eficiência.

Como Funciona?

Extração (Extract): O sistema busca os dados do SIA-SUS, que estão em diversos arquivos. Os pesquisadores utilizaram uma biblioteca chamada PySUS, que facilita o acesso a esses dados públicos do DATASUS. Esta etapa é crucial e, segundo o estudo, é a que mais consome tempo, pois envolve a transferência de grandes volumes de informações.
Transformação (Transform): Depois de extraídos, os dados são padronizados e enriquecidos. Isso significa corrigir formatos, preencher informações ausentes e garantir que todos os dados estejam prontos para serem analisados. Por exemplo, datas são padronizadas, a variável de sexo é corrigida e a idade é convertida para valores numéricos.
Carga (Load): Finalmente, os dados transformados são carregados em um banco de dados PostgreSQL, também hospedado na nuvem. Para garantir a eficiência, o sistema utiliza uma técnica de carregamento em massa, que é muito mais rápida do que carregar os dados um por um.

Figura: Como funciona

Resultados

Para testar a eficácia do sistema, os pesquisadores realizaram um experimento piloto com dados de janeiro de 2024 de três estados brasileiros: Santa Catarina, Espírito Santo e Rio Grande do Norte, totalizando cerca de 3,2 milhões de registros ambulatoriais. Os resultados foram positivos:

Estabilidade e escalabilidade: O sistema demonstrou um desempenho estável, mesmo com diferentes volumes de dados. Isso significa que ele pode ser expandido para processar ainda mais informações de outros estados ou períodos sem perder a qualidade. A relação entre o volume de dados processados e o tempo de execução foi quase linear, com um coeficiente de determinação R² = 0.996, indicando que o tempo de processamento aumenta proporcionalmente ao volume de dados.
Eficiência na carga de dados: A estratégia de carregamento em massa dos dados no banco de dados foi cerca de dez vezes mais rápida do que métodos tradicionais, o que é fundamental para lidar com grandes volumes de informações.
Identificação de gargalos: O estudo também revelou que a etapa de extração (transferência dos arquivos) é o principal gargalo de desempenho, respondendo por aproximadamente 62-64% do tempo total de execução. Isso sugere que futuras otimizações podem focar nessa área, talvez com downloads paralelos ou cache temporário.

Impacto na saúde pública

Este pipeline automatizado tem o potencial de transformar a forma como o SUS lida com seus dados. Ao reduzir a complexidade operacional da preparação de grandes bases de dados, ele facilita a integração de informações em ambientes analíticos. Isso significa que gestores de saúde, pesquisadores e formuladores de políticas públicas terão acesso a dados mais confiáveis e atualizados para:

Tomada de decisões: basear decisões em evidências e informações concretas.
Monitoramento de políticas: avaliar a eficácia de programas e políticas de saúde.
Pesquisas epidemiológicas: realizar estudos mais precisos sobre a saúde da população.
Alocação de recursos: direcionar investimentos para as áreas mais necessitadas.

O próximo passo pode incluir a exploração de estratégias de paralelização e processamento distribuído, além da avaliação de métricas de infraestrutura, como uso de CPU e custos de computação em nuvem.

Ficha Técnica

Artigo Original: Scalable ETL pipeline for health data ingestion application to the Brazilian Unified Health System (SUS)
Autores: Andre Massahiro Shimaoka, Maria Elisabete Salvador, José Marcio Duarte, Antonio Carlos da Silva Junior, Luciano Rodrigo Lopes, Paulo Bandiera-Paiva
Autor matéria: Andréa Pereira Simões Pelogi (Departamento de Informática em Saúde (DIS) da Escola Paulista de Medicina (EPM)/Unifesp).
Revisão técnica: Andre Massahiro Shimaoka (Pesquisador do DIS/EPM).
Adaptação para divulgação científica: Andréa Pereira Simões Pelogi (Comunicação).
Revisão institucional: Claudia Galindo Novoa (Chefia do Departamento de Informática em Saúde)
Data de Publicação: 18/05/2026

Aviso: As informações apresentadas neste artigo têm caráter informativo e não substituem orientação profissional especializada. O Departamento de Informática em Saúde não se responsabiliza por eventuais erros ou interpretações incorretas do conteúdo divulgado.

Page updated

Report abuse