A inteligência artificial tem avançado tradicionalmente por meio de testes automáticos de precisão em tarefas destinadas a aproximar-se do conhecimento humano. Testes padronizados cuidadosamente elaborados, como o General Language Understanding Evaluation (GLUE), o Massive Multitask Language Understanding (MMLU) e o “Último Exame da Humanidade”, têm utilizado uma ampla gama de perguntas para medir o quão bem um grande modelo de linguagem compreende diversos assuntos. No entanto, esses testes têm se mostrado cada vez mais insatisfatórios como um parâmetro para avaliar o valor dos programas de IA generativa. É necessário algo diferente, e pode ser um julgamento mais humano sobre a produção da IA.
Essa perspectiva tem circulado na indústria há algum tempo. “Os benchmarks estão saturados”, afirmou Michael Gerstenhaber, chefe de tecnologias de API na Anthropic, desenvolvedora da família de LLMs Claude, durante uma conferência da Bloomberg sobre IA em novembro. A necessidade de a presença humana ser considerada ao avaliar modelos de IA também vem sendo mencionada em estudos acadêmicos. Em um artigo recente publicado no New England Journal of Medicine por acadêmicos de várias instituições, incluindo o Beth Israel Deaconess Medical Center, o autor principal Adam Rodman e seus colaboradores argumentam que “quando se trata de benchmarks, os humanos são a única solução”.
Os benchmarks tradicionais na área de IA médica, como o MedQA criado no MIT, “se tornaram saturados”, afirmam, o que significa que modelos de IA facilmente superam esses exames, mas não se conectam ao que realmente importa na prática clínica. “Nosso próprio trabalho demonstra como benchmarks desafiadores estão sendo rapidamente dominados por sistemas de raciocínio como o OpenAI o1”, afirmam. Rodman e sua equipe defendem a adaptação de métodos clássicos pelos quais médicos humanos são treinados, como simulações de papéis. “Estudos sobre interação humano-computador são consideravelmente mais lentos do que as avaliações de benchmarks com adjudicação humana, mas à medida que os sistemas se tornam mais poderosos, eles se tornarão ainda mais essenciais”, escrevem.
A supervisão humana no desenvolvimento de IA tem sido uma parte fundamental do progresso na IA generativa. O desenvolvimento do ChatGPT em 2022 utilizou amplamente o “aprendizado por reforço com feedback humano”. Essa abordagem envolve diversas rodadas em que humanos avaliam a produção de modelos de IA para moldá-la em direção a um objetivo desejado. Contudo, agora, a OpenAI, criadora do ChatGPT, e outros desenvolvedores de modelos de ponta estão envolvendo humanos na classificação e avaliação de seus trabalhos. Ao lançar seu modelo open-source Gemma 3 neste mês, o Google enfatizou não tanto as pontuações de benchmarks automatizados, mas as avaliações de avaliadores humanos para demonstrar a superioridade do modelo.
O Google até caracterizou o Gemma 3 nos mesmos termos que atletas de alto rendimento, utilizando as chamadas pontuações ELO para mensurar a habilidade geral. De maneira semelhante, quando a OpenAI apresentou seu mais recente modelo de ponta, o GPT-4.5, em fevereiro, a ênfase não foi apenas nos resultados de benchmarks automatizados como o SimpleQA, mas também na percepção dos revisores humanos sobre a produção do modelo. “As medidas de preferência humana”, afirma a OpenAI, são uma forma de avaliar “a porcentagem de consultas nas quais os testadores preferiram o GPT‑4.5 em relação ao GPT‑4”. A empresa alega que o GPT-4.5 possui um “quociente emocional” superior como resultado, embora não tenha especificado como.
Mesmo enquanto novos benchmarks estão sendo criados para substituir aqueles que supostamente foram saturados, os projetistas de benchmarks parecem estar incorporando a participação humana como um elemento central. Em dezembro, o GPT-0.3 “mini” da OpenAI tornou-se o primeiro modelo de linguagem grande a superar uma pontuação humana em um teste de raciocínio abstrato chamado Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). Esta semana, François Chollet, inventor do ARC-AGI e cientista na unidade de IA do Google, apresentou uma nova versão mais desafiadora, o ARC-AGI 2. Enquanto a versão original foi pontuada levando em conta a capacidade humana por meio de testes com trabalhadores humanos da Amazon Mechanical Turk, Chollet, desta vez, contou com uma participação humana mais significativa.
“Para garantir a calibração da dificuldade voltada ao humano, realizamos um estudo ao vivo em San Diego no início de 2025, envolvendo mais de 400 membros do público geral”, escreve Chollet em seu post de blog. “Os participantes foram testados em tarefas candidatas do ARC-AGI-2, permitindo-nos identificar quais problemas poderiam ser resolvidos de forma consistente por pelo menos duas pessoas em duas ou menos tentativas. Esses dados de primeira mão fornecem um sólido benchmark para o desempenho humano e serão publicados junto ao artigo do ARC-AGI-2.” É um pouco como uma combinação de benchmarking automatizado com os divertidos flash mobs de arte performática de alguns anos atrás. Essa fusão no desenvolvimento de modelos de IA com a participação humana sugere um grande espaço para expandir o treinamento, desenvolvimento, engenharia e teste de modelos de IA com cada vez mais envolvimento humano. Mesmo Chollet não pode afirmar neste momento se tudo isso levará à inteligência geral artificial.
Referência: [link da matéria]
Posts relacionados:



