OpenAI anunciou que seus modelos mais recentes, o o3 e o o4-mini, são os mais potentes até agora. Entretanto, pesquisas indicam que esses modelos também possuem uma taxa de alucinações significativamente maior — pelo menos duas vezes mais do que os modelos anteriores.
No relatório suplementar que acompanha cada novo modelo de IA, divulgado na última semana, a OpenAI evidenciou que o o4-mini apresenta menor precisão e uma maior taxa de alucinações em comparação com os modelos o1 e o3. Utilizando o PersonQA, um teste interno baseado em informações públicas, a empresa descobriu que o o4-mini apresentou alucinações em 48% das respostas, valor que é três vezes maior que a taxa do o1. Embora o o4-mini seja menor, mais econômico e veloz que o o3, e, portanto, não era esperado que superasse seu predecessor, o o3 ainda assim alucina em 33% das respostas, ou seja, o dobro da taxa do o1. Entre os três modelos, o o3 teve o melhor desempenho em precisão.
Segundo o relatório da OpenAI, "o o3 tende a fazer mais afirmações de modo geral, resultando em tanto afirmações precisas quanto imprecisas/alucinações". A empresa acrescentou que "é necessário mais estudo para entender a causa desse resultado". As alucinações, que se referem a informações fabricadas, estudos e até URLs inventados, continuam sendo um desafio, mesmo com os avanços mais recentes em IA. Não existe uma solução perfeita para prevenir ou identificar tais ocorrências, embora a OpenAI tenha tentado algumas abordagens. Além disso, a verificação de fatos é um alvo em movimento, o que dificulta sua implementação e escalabilidade. Esse processo envolve um certo nível de habilidades cognitivas humanas que a IA, em sua maioria, não possui, como senso comum, discernimento e contextualização. Assim, a frequência com que um modelo alucina depende muito da qualidade dos dados de treinamento (e do acesso à internet para informações atuais).
Reduzir a desinformação nos dados de treinamento pode diminuir a probabilidade de afirmações falsas se replicarem. Contudo, essa técnica não evita alucinações, já que muitas das escolhas criativas de um chatbot de IA ainda não são totalmente compreendidas. Em geral, o risco de alucinações tende a diminuir lentamente com cada novo lançamento de modelo, o que torna os resultados do o3 e o o4-mini um tanto surpreendentes. Ainda que o o3 tenha melhorado 12 pontos percentuais em relação ao o1 em termos de precisão, o fato de que esse modelo alucina duas vezes mais sugere que sua precisão não cresceu de forma proporcional às suas capacidades.
Como outros lançamentos recentes, o o3 e o o4-mini são modelos de raciocínio, o que significa que eles externalizam os passos que seguem para interpretar um pedido. Na última semana, o laboratório de pesquisa independente Transluce publicou uma avaliação que constatou que o o3 frequentemente cria ações que não consegue realizar em resposta a uma solicitação, incluindo afirmar que executa Python em um ambiente de codificação, mesmo sem ter essa habilidade. Além disso, o modelo insiste nas falsidades quando é confrontado. O relatório revelou que "o o3 justifica ainda mais as saídas alucinatórias quando questionado pelo usuário, chegando a alegar que usa um MacBook Pro externo para realizar cálculos e copia os resultados para o ChatGPT." A Transluce descobriu que essas alegações falsas sobre a execução de código eram mais frequentes em modelos da série o (o1, o3-mini e o3) do que em modelos da série GPT (4.1 e 4o).
Esse resultado é particularmente confuso, visto que modelos de raciocínio levam mais tempo para fornecer respostas mais completas e de maior qualidade. A cofundadora da Transluce, Sarah Schwettmann, chegou a comentar que "a taxa de alucinações do o3 pode torná-lo menos útil do que poderia ser". Em seu relatório, a Transluce afirmou: "Embora problemas de veracidade após o treinamento sejam conhecidos, eles não explicam totalmente a gravidade aumentada das alucinações em modelos de raciocínio. Hipotetizamos que essas questões possam ter sido intensificadas por escolhas de design específicas nos modelos de raciocínio da série o, como o aprendizado por reforço baseado em resultados e a omissão de cadeias de pensamento de interações anteriores."
Na última semana, fontes dentro da OpenAI e testadores de terceiros confirmaram que a empresa reduziu drasticamente os testes de segurança para novos modelos, incluindo o o3. Embora o cartão do sistema mostre que o o3 e o o4-mini estão "aproximadamente no mesmo nível" que o o1 em robustez contra tentativas de jailbreak (todos três marcando entre 96% e 100%), as taxas de alucinações suscitavam preocupações sobre os impactos não relacionados à segurança de mudanças nos cronogramas de teste. A responsabilidade ainda recai sobre os usuários para verificar a veracidade de qualquer output de um modelo de IA. Essa estratégia se mostra prudente ao utilizar os modelos de raciocínio de última geração.
Referencia: OpenAI’s latest AI models hallucinate more than predecessors
Posts relacionados:



