
Com modelos de IA superando todos os padrões, chegou a hora da avaliação humana
A inteligência artificial tem avançado tradicionalmente por meio de testes automáticos de precisão em tarefas destinadas a aproximar-se do conhecimento humano. Testes padronizados cuidadosamente elaborados, como o General Language Understanding Evaluation (GLUE), o Massive Multitask Language Understanding (MMLU) e o “Último Exame da Humanidade”, têm utilizado uma ampla gama de








