Auditoria de contas médicas com IA: o que machine learning, redes neurais e LLMs realmente entregam

A discussão sobre IA aplicada à auditoria de contas médicas costuma pular a parte mais importante: que tipo de IA, para qual problema, com que custo de manutenção. "Vamos usar IA" é uma frase que, sem desdobramento técnico, gera projetos que custam caro e movem pouco indicador.

Este post é um mapa para times de inovação dentro de operadoras. Não é um manual de implementação (cada operação tem suas restrições), mas um conjunto de provocações sobre onde machine learning clássico, redes neurais especializadas, LLMs e fine-tuning realmente mudam o jogo na auditoria de contas médicas. E onde, sinceramente, não mudam.

O ponto de partida: nem todo problema de auditoria é problema de IA

Antes de escolher tecnologia, vale reconhecer que a auditoria de contas médicas tem três camadas distintas de problemas.

A primeira é determinística: validação de códigos TUSS/TISS, conferência contra tabela contratual, identificação de duplicidades exatas. Aqui IA é desperdício. SQL bem escrito e tabelas atualizadas resolvem com maior precisão e custo desprezível.

A segunda é de padrões em volume: fraudes coordenadas, comportamento atípico de prestadores, picos de utilização suspeitos. Aqui machine learning clássico faz a maior parte do trabalho pesado.

A terceira é compreensão de linguagem e documentos: laudos em PDF, justificativas em texto livre, recibos manuscritos, relatórios cirúrgicos. Aqui LLMs e visão computacional finalmente entregam o que prometiam há uma década.

A primeira sugestão para qualquer operadora começando essa jornada é separar essas três camadas. Times que tentam resolver tudo com um único modelo gigante acabam pagando por capacidade que não usam e perdendo precisão onde mais importa.

Machine learning clássico: o trabalho pesado pouco glamouroso

Modelos clássicos de ML continuam sendo a infraestrutura de fundo em auditoria. Random forests, gradient boosting (XGBoost, LightGBM), regressão logística regularizada e modelos de detecção de anomalia (isolation forest, autoencoder leve) entregam três coisas que LLMs ainda não entregam bem em produção.

A primeira é velocidade e custo. Inferência em milissegundos, treinável em CPU comum, deploy em qualquer infra. Para volumes de centenas de milhares de pedidos por mês, o custo por inferência precisa ser desprezível.

A segunda é calibração. A probabilidade que o modelo cospe ("este pedido tem 73% de chance de apresentar padrão fraudulento") é numericamente confiável. Times de auditoria conseguem definir cortes de risco com base em histograma e taxa de falso positivo aceita pela operação.

A terceira é interpretabilidade. SHAP values e feature importance dão ao auditor humano a justificativa de por que esse pedido foi flagueado. Para enfrentar regulação ANS e contestação de prestador, isso não é opcional.

Onde esses modelos brilham especificamente:

Detecção de outliers de prestador. Comparar o perfil de utilização de um prestador contra a distribuição do cluster onde ele se encaixa. Um cardiologista que pede ressonância em 80% das consultas, em uma distribuição onde o p90 é 12%, é um sinal que ML tradicional captura sem dificuldade.
Score de risco por pedido. Combinar features tabulares (valor, procedimento, histórico do beneficiário, prestador, sazonalidade) em um score único confiável.
Clustering de redes fraudulentas. Graph features extraídas das relações entre prestadores, beneficiários e datas revelam células coordenadas que, individualmente, parecem benignas.

A provocação para o time de inovação: antes de comprar um modelo grande, mapeie quanto do problema seu ML clássico já cobriria com features bem desenhadas. Em geral, é mais do que se imagina.

Redes neurais especializadas: onde a estrutura do dado importa

Redes neurais profundas só fazem sentido quando o dado tem estrutura que features tabulares não capturam bem. Em auditoria, isso aparece em três frentes.

Visão computacional para OCR e validação de documentos. Recibos amassados, laudos digitalizados em ângulo, formulários escaneados em baixa resolução. CNNs e, mais recentemente, vision transformers treinados ou fine-tunados sobre o dataset específico da operadora atingem precisões que sistemas OCR genéricos não alcançam, especialmente em documentos com layout do mercado brasileiro (TISS XML é um caso, recibo do interior é outro).

Modelos sequenciais para padrões temporais. LSTMs e, hoje, Transformers menores aplicados sobre a sequência de eventos de um beneficiário (consultas, exames, internações) revelam comportamentos que análises agregadas escondem. Um beneficiário cuja sequência de eventos não bate com a progressão clínica esperada para a CID alegada é um sinal sutil, mas detectável.

Embeddings para similaridade entre casos. Treinar um modelo que mapeia pedidos de reembolso para um espaço vetorial permite buscar, em milissegundos, pedidos historicamente parecidos com este. É a diferença entre o auditor olhar um caso isolado e olhar o caso mais 20 históricos similares com seus desfechos.

A provocação aqui: redes neurais customizadas exigem dataset rotulado de qualidade e MLOps maduro. Operadoras com dataset pequeno ou rotulagem inconsistente ganham mais investindo em qualidade de dado antes de capacidade de modelo.

LLMs: o que eles realmente fazem bem (e o que ainda não fazem)

Foundation models grandes mudaram radicalmente o que é possível em auditoria, mas o entusiasmo costuma ofuscar onde eles ainda falham.

O que LLMs fazem excepcionalmente bem hoje:

Extração estruturada de documentos não estruturados. Dado um laudo médico em texto livre, um LLM moderno extrai diagnóstico principal, procedimentos sugeridos, contraindicações e justificativas em JSON estruturado, com qualidade que rivaliza com humano treinado.
Compreensão multilíngue e variação dialetal. Recibos em mais de 40 idiomas (foundation models cobrem essa escala nativamente), abreviações regionais, jargão clínico variado. LLMs lidam com isso sem treinamento adicional.
Geração de justificativas de glosa e textos de recurso, com tom controlado e citação de evidência quando bem ancorados em RAG.
Classificação fina quando o problema exige nuance: "esta justificativa clínica sustenta o procedimento ou está genérica?".

O que LLMs ainda não fazem bem:

Códigos críticos. Pedir para um LLM mapear um procedimento descrito em texto para o código TUSS correto é receita para alucinação. Use LLM para identificar candidatos, e tabelas determinísticas para validar.
Cálculos. Aplicar regra contratual com tetos, glosas percentuais, descontos por pacote. LLMs erram aritmética em produção. Use código.
Decisão final autônoma. Em auditoria de saúde, o LLM propõe; humano (ou regra determinística) decide. Sistemas que delegam decisão final ao LLM acumulam dívida regulatória que aparece na primeira fiscalização ANS.

A provocação para o time de inovação: trate o LLM como uma camada de compreensão, não como o cérebro do sistema. As decisões de alto risco devem fluir por validação determinística, mesmo que o input venha do LLM.

Fine-tuning: a pergunta dos seis dígitos

Esta é, talvez, a decisão técnica mais cara da jornada. Fine-tunar um foundation model envolve infraestrutura, dataset rotulado, processo de avaliação contínua e custo recorrente de inferência sobre o modelo customizado. Antes de assinar o cheque, vale rodar três perguntas.

Pergunta 1: RAG resolveria? Em 70% dos casos onde times pedem fine-tuning, o problema real é falta de contexto, não falta de capacidade do modelo. RAG (retrieval-augmented generation) sobre uma base bem indexada de protocolos clínicos, contratos e histórico do beneficiário entrega o efeito desejado sem o custo de fine-tuning.

Pergunta 2: Few-shot prompting com exemplos curados resolveria? Modelos modernos aprendem padrões com 5-10 exemplos bem escolhidos no prompt. Para tarefas como classificação de tipo de glosa ou extração de campos específicos, isso entrega 80-90% do que fine-tuning entregaria, com manutenção trivial.

Pergunta 3: O dataset que justificaria fine-tuning existe? Fine-tuning útil exige milhares de exemplos rotulados de qualidade. Se a operadora não tem isso, o investimento prioritário é em rotulagem, não em treino.

Quando fine-tuning realmente vale o investimento:

Domínio terminológico altamente específico (terminologia hospitalar regional, abreviações internas) que o modelo base não conhece bem.
Tarefas de classificação onde latência e custo importam, e o modelo base é pesado demais para servir em escala. Fine-tunar um modelo menor (7B-13B parâmetros) sobre o caso específico pode ser ordens de magnitude mais barato em produção.
Restrições de privacidade que exigem inferência on-premises ou em nuvem privada, e o modelo open-source disponível precisa de adaptação ao domínio.

LoRA e variantes (QLoRA, DoRA) reduziram drasticamente o custo de fine-tuning nos últimos 18 meses. Operadoras com time de ML maduro e GPU disponível conseguem rodar experimentos de fine-tuning específicos em dias, não meses. Isso muda a pergunta de "vale a pena?" para "qual o ROI vs. RAG bem feito?".

O que times de inovação sérios estão olhando agora

Algumas frentes que vale acompanhar:

Modelos multimodais que recebem imagem do laudo e texto do pedido em uma única passagem. Reduz a complexidade de pipeline e melhora consistência entre o que o documento mostra e o que o pedido alega.
Agentes com ferramentas, em que o LLM consulta tabela TUSS, base de jurisprudência, histórico do prestador, e usa esse retorno para sustentar a análise. A capacidade de "consultar" muda a equação de RAG estático para investigação ativa.
Modelos especialistas pequenos treinados em dataset clínico-administrativo brasileiro. Para certas tarefas, um modelo de 3B-7B parâmetros bem treinado bate o GPT-4 de prateleira em precisão e custa fração do preço.
Active learning para rotulagem assistida. Em vez de rotular o dataset todo, deixe o modelo identificar os casos onde sua incerteza é maior e direcione o esforço humano para esses. Multiplica eficiência da rotulagem em 5-10x.

Onde o time de inovação faz a diferença

A diferença entre operadoras que tiram proveito real de IA e operadoras que acumulam projetos parados não está no orçamento. Está em como o time de inovação responde a três perguntas.

Como avaliamos antes de comprar? Métricas claras de baseline (precisão atual com auditor humano, tempo médio, taxa de glosa correta), benchmarks reproduzíveis, datasets de teste fechados. Sem isso, qualquer fornecedor de IA pode prometer qualquer coisa.

Como medimos depois de implantar? Drift de modelo é real. O perfil de fraude muda, a oferta de procedimentos muda, a base de prestadores muda. Sistemas sem monitoramento contínuo degradam silenciosamente.

Como mantemos isso? Cada modelo é dívida técnica futura. Quem é o dono do retreino, da governança, da resposta a incidente? Operadoras que não respondem essa pergunta antes da implantação acabam com sistemas que ninguém quer mexer.

Para o time de inovação que está estruturando essa frente, a recomendação é começar pequeno e medível. Um caso de uso bem instrumentado (digamos, detecção de duplicidade em reembolso de exames) entrega aprendizado de processo que destrava os próximos casos com muito menos atrito.

A IA aplicada à auditoria de contas médicas hoje é menos sobre escolher o modelo certo e mais sobre escolher o problema certo, com o instrumento certo, mantido pelo time certo. Operadoras que entendem isso estão construindo vantagem composta.

É com essa convicção que construímos o AI.AUDITAMED, a plataforma da IT Cygnus que combina, em produção, machine learning para padrões em volume, modelos de visão e linguagem para compreensão de documentos, fine-tuning calibrado por caso de uso e camadas determinísticas para validação de códigos críticos. Em operadoras brasileiras de saúde suplementar, ela já está auditando volume real, com trilha auditável e ganhos medidos contra o baseline manual.

Se você quer ver de perto o que isso entrega na sua operação, convidamos seu time para uma avaliação prática. Rodamos o AI.AUDITAMED sobre uma amostra das suas próprias contas médicas, comparamos com seu processo atual de auditoria e entregamos um relatório com os ganhos identificados. Solicite uma avaliação do AI.AUDITAMED e veja, sobre seu próprio dado, o que estamos entregando para operadoras no Brasil.

Sozinhos, combatemos uma fraude. Unidos, eliminamos o problema.

Auditoria de contas médicas com IA: o que machine learning, redes neurais e LLMs realmente entregam

O ponto de partida: nem todo problema de auditoria é problema de IA

Machine learning clássico: o trabalho pesado pouco glamouroso

Redes neurais especializadas: onde a estrutura do dado importa

LLMs: o que eles realmente fazem bem (e o que ainda não fazem)

Fine-tuning: a pergunta dos seis dígitos

O que times de inovação sérios estão olhando agora

Onde o time de inovação faz a diferença

Pronto para aplicar isso na sua operação?

Receba os próximos posts no seu email

Continue lendo

Fraude em reembolso de saúde: por que a IA virou requisito, não diferencial

Inconsistências na regulação médica: o ponto cego das operadoras

Auditoria com IA: a nova pauta de conselho em operadoras de saúde