A pesquisa sobre inteligência artificial (IA) na medicina mostra-se cada vez mais promissora — essa tecnologia já acelera o desenvolvimento de medicamentos, a Google está utilizando IA para aprimorar seu aconselhamento médico e empresas de dispositivos vestíveis estão aproveitando a tecnologia para funcionalidades preditivas de saúde. Agora, a Microsoft é a mais recente a elevar a barra.
Na segunda-feira, a empresa anunciou em uma postagem em seu blog que o Microsoft AI Diagnostic Orchestrator (MAI-DxO), seu sistema de IA médica, diagnosticou com sucesso 85% dos casos publicados no New England Journal of Medicine (NEJM). Essa taxa de diagnóstico é mais de quatro vezes superior ao desempenho de médicos humanos. Os casos do NEJM são particularmente complexos e frequentemente exigem a participação de diversos especialistas.
Diante da complexidade, inacessibilidade e confusão que os sistemas de saúde ainda representam, não é surpreendente que as pessoas estejam buscando auxílio na tecnologia sempre que possível. “Em nossos produtos de IA direcionados ao consumidor, como Bing e Copilot, detectamos mais de 50 milhões de sessões relacionadas à saúde todos os dias”, declarou a Microsoft no comunicado. “Desde uma consulta inicial sobre dor no joelho até uma busca noturna por uma clínica de atendimento urgente, os mecanismos de busca e os companheiros de IA estão rapidamente se tornando a nova linha de frente na saúde.”
Os médicos humanos precisam passar no Exame de Licenciamento Médico dos EUA (USMLE) para poder praticar a medicina, um teste que também é utilizado para avaliar o desempenho de sistemas de IA em contextos médicos, tanto em comparação com outros modelos quanto com humanos. Atualmente, a IA tem obtido boas pontuações no USMLE — um efeito colateral, segundo a Microsoft, de os modelos memorizarem (em vez de compreenderem) as respostas das questões de múltipla escolha, o que não resulta na análise médica mais precisa. A maioria dos benchmarks padrão da indústria já se encontra saturada há algum tempo, o que significa que os modelos de IA estão evoluindo rapidamente demais para que os testes sejam desafiadores de forma útil.
Para enfrentar esse problema, a Microsoft criou o Sequential Diagnosis Benchmark (SD Bench). O diagnóstico sequencial é um processo que os clínicos reais utilizam para diagnosticar pacientes, começando pela apresentação dos sintomas e seguindo com perguntas e testes a partir daí. O teste apresenta desafios diagnósticos de 304 casos do NEJM, que humanos e modelos de IA podem utilizar para formular perguntas.
A Microsoft, então, associou o agente diagnóstico MAI-DxO a vários modelos de ponta, incluindo GPT, Llama, Claude, Gemini, Grok e DeepSeek, e submeteu o agente ao teste do SD Bench. O MAI-DxO transforma qualquer modelo de linguagem grande (LLM) que utiliza em um “painel virtual de médicos com abordagens diagnósticas diversas colaborando para resolver casos diagnósticos”, explicou a Microsoft.
Em uma demonstração em vídeo, o MAI-DxO também revela seu raciocínio enquanto consulta o benchmark, desenvolve possíveis diagnósticos e rastreia o custo de cada teste solicitado. Assim que o agente obtém as informações necessárias do benchmark sobre o caso, ele ajusta seus diagnósticos, solicitando diferentes exames e apresentando um processo diagnóstico muito mais familiar aos médicos humanos.
“MAI-DxO aumentou o desempenho diagnóstico de todos os modelos que testamos”, afirmou a Microsoft em seu blog, destacando que o sistema teve melhor desempenho quando combinado com o modelo o3 da OpenAI. A empresa comparou os resultados com aqueles de 21 médicos do Reino Unido e dos EUA, com experiência variando de cinco a 20 anos, que alcançaram uma média de precisão de apenas 20%.
A Microsoft observou ainda que o MAI-DxO é configurável, permitindo que funcione dentro de limites de custo estabelecidos por usuários ou organizações — uma característica que possibilita ao agente realizar uma análise custo-benefício de certos testes, algo altamente relevante para a exorbitante precificação dos cuidados médicos nos EUA e também uma consideração que médicos e pacientes humanos devem ter em mente. Essa funcionalidade também atua como uma espécie de limite — sem ela, a IA poderia “tender a solicitar todos os testes possíveis — independentemente do custo, desconforto do paciente ou atrasos no cuidado”, explicava a postagem.
Provavelmente, a IA não substituirá seu médico tão cedo — embora o blog da Microsoft tenha destacado que, devido à sua ampla gama de conhecimentos, a IA pode superar “as capacidades de raciocínio clínico que, em muitos aspectos do raciocínio clínico, superam as de qualquer médico individual”. A empresa acredita que sistemas como este podem “redefinir a saúde” ao proporcionar aos pacientes a opção de se autoconferirem de forma confiável e ajudar médicos com casos complexos. A economia de custos seria um outro ponto positivo para uma indústria frequentemente marcada por preços inexplicavelmente altos e estruturas de preços obscuras.
A Microsoft reconheceu que o MAI-DxO foi testado apenas em casos especiais, portanto, é incerto como ele lidaria com tarefas do dia a dia. Contudo, essa questão pode não ser relevante, caso o agente não tenha a intenção de substituir médicos humanos, algo que a Microsoft também reafirmou em sua postagem.
O MAI-DxO faz parte de um “esforço dedicado à saúde do consumidor” que a Microsoft AI iniciou no ano passado, conforme a empresa destacou em seu comunicado. Outros produtos de IA dentro dessa iniciativa incluem o RAD-DINO, uma ferramenta de fluxo de trabalho de radiologia, e o Microsoft Dragon Copilot, um assistente de IA por voz projetado para profissionais da medicina.
Referência: krisanapong detraphiphat/Getty
Posts relacionados:



