O Teste de Turing apresenta uma falha – e o GPT-4.5 da OpenAI acaba de revelá-la.

A maioria das pessoas está ciente de que o famoso Teste de Turing, um experimento mental idealizado pelo pioneiro da computação Alan Turing, serve como uma medida popular do progresso em inteligência artificial. No entanto, muitos erroneamente acreditam que isso serve como prova de que as máquinas realmente pensam. Pesquisa recente do corpo acadêmico da Universidade da Califórnia em San Diego revela que o mais recente modelo de linguagem da OpenAI, o GPT-4.5, é capaz de enganar humanos, fazendo-os acreditar que o modelo de IA é uma pessoa em chats de texto, superando até a capacidade de um humano em convencer outro de sua humanidade. Esse é um marco nos avanços da IA generativa na produção de respostas convincentes a prompts.

Embora os pesquisadores reconheçam essa conquista no Teste de Turing, eles entendem que isso não significa necessariamente que a "inteligência geral artificial", ou AGI, foi alcançada — um nível de processamento computacional equivalente ao pensamento humano. Melanie Mitchell, uma estudiosa de IA e professora no Instituto de Santa Fé, no Novo México, escreveu na revista científica Science que o Teste de Turing é menos uma avaliação de inteligência em si e mais um teste de suposições humanas. Apesar das altas pontuações no teste, "a capacidade de soar fluente em uma linguagem natural, assim como jogar xadrez, não é prova conclusiva de inteligência geral", afirmou Mitchell.

A mais recente realização convincente é discutida por Cameron Jones e Benjamin Bergen, da UC San Diego, em um artigo publicado esta semana no servidor de pré-impressão arXiv, intitulado "Modelos de Linguagem Grande Aprovam o Teste de Turing". Este trabalho é a mais nova parte de um experimento que Jones e Bergen vêm conduzindo por anos, envolvendo alunos de graduação da UC San Diego. Como afirmam os autores, há décadas de pesquisas sobre essa questão, e até agora foram feitas "mais de 800 reivindicações e contra-argumentos diferentes" sobre computadores que passaram no teste.

O Teste de Turing foi originalmente concebido por Turing como uma rodada de troca de mensagens de texto entre um "juiz" humano e dois "testemunhas", sendo uma humana e a outra um computador. As testemunhas, tanto humanas quanto computacionais, tinham a tarefa de convencer o juiz humano de que eram humanos através das mensagens enviadas. O juiz sabe que apenas um dos dois é humano, mas não sabe qual, e deve adivinhar. Essa forma triangular do experimento é fundamental. Significa que, se o juiz confundir um computador com um ser humano, ele também falhou em perceber os indícios que deveria ter recebido do humano.

Em outras palavras, trata-se de um teste tanto sobre como os humanos percebem e acreditam, quanto sobre o funcionamento da máquina. O novo design proposto por Jones e Bergen está disponível online, permitindo que você participe do jogo como juiz ou testemunha. Como nas versões anteriores, os alunos da UC San Diego foram convidados a participar de um chat de texto. Alguns atuaram como juízes, enquanto outros como testemunhas humanas em trocas de mensagens de cinco minutos, com o GPT-4.5 atuando como a testemunha computadorizada. Cada juiz conversou simultaneamente com um humano e com um computador para atender à estrutura triangular proposta por Turing.

Para atuar como a testemunha computadorizada, diversos modelos de linguagem foram utilizados, respondendo aos desafios do juiz através de prompts. O GPT-4.5 foi testado com dois tipos diferentes de prompts. Um deles continha informações mínimas, enquanto o segundo, intitulado PERSONA, recebeu muitos detalhes adicionais, incluindo "instruções sobre que tipo de persona adotar ao responder ao interrogador: especificamente, a de um jovem introvertido, conhecedor da cultura da internet e que usa gírias", segundo os autores.

Três outros programas de IA foram testados: o modelo anterior da OpenAI, GPT-4o; o Llama 3.1 405b da Meta Platforms; e um antigo programa de chatbot da década de 1960, chamado ELIZA. O ELIZA foi incluído como um programa mais primitivo que poderia servir como um controle para verificar se os modelos de linguagem mais recentes conseguiram enganar um humano apenas por acaso ou se eram realmente programas melhores. O GPT-4.5, conforme relatado por Jones e Bergen, obteve uma "taxa de vitória" de 73%, ou seja, conseguiu fazer o juiz humano declará-lo humano em 73% das vezes. Em contrapartida, a versão do GPT-4.5 que recebeu o prompt minimalista, junto com os três outros programas de IA, teve um desempenho muito inferior, com pontuações que variaram de 21% a 56%, mesmo quando os outros modelos também tiveram um prompt RICA como o PERSONA.

Além disso, o GPT-4.5 superou os resultados de um teste anterior realizado por Jones e Bergen, que revelou uma taxa de vitória de apenas 54%, um pouco acima do acaso. Os pesquisadores concluíram que "os interrogadores não apenas falharam em identificar a verdadeira testemunha humana, mas que estavam, na verdade, mais propensos a acreditar que este modelo era humano do que outros participantes humanos".

Surge a questão sobre o que realmente significa que humanos tenham dificuldade em diferenciar um computador de uma pessoa apenas com base em mensagens de texto. Os autores reconhecem que a "questão mais controversa" sobre o problema de Turing ao longo das décadas é se ele realmente mede a inteligência. Uma interpretação possível é que as máquinas se tornaram tão competentes que podem "adaptar seu comportamento a diferentes cenários", tornando-se assim flexíveis e, aparentemente, mais capazes de passar por humanos. O prompt PERSONA, criado por humanos, é algo com o qual o GPT-4.5 "se adaptou" para vencer, o que configura um verdadeiro avanço técnico nas capacidades do modelo de IA.

No entanto, uma crítica frequente ao teste é que os humanos podem simplesmente ser ruins em reconhecer inteligência. Os autores concluem que seu experimento apresenta evidências desse fato, ao menos em parte. Eles observam que, em 23% das vezes, o programa ELIZA conseguiu enganar os juízes humanos, e essa confusão não ocorreu porque ele era inesperadamente mais inteligente. Muitos participantes escolheram o ELIZA simplesmente porque suas respostas não atendiam às expectativas que tinham sobre um sistema de IA (por exemplo, "era sarcástico" ou "não acho que IA seria tão rude"). Essas suposições, afirmam, "sugerem que as decisões dos interrogadores incorporam complexas suposições sobre como humanos e sistemas de IA podem se comportar nesses contextos, além de simplesmente identificar o agente que parece mais inteligente".

De fato, os juízes humanos não questionaram muito sobre conhecimento em seus desafios, mesmo que Turing acreditasse que essa seria a principal avaliação. "Um dos motivos mais preditivos de veredictos precisos", escrevem, "era que uma testemunha fosse humana simplesmente porque ela não tinha conhecimento". So­ciabilidade, e não inteligência. Isso indica que os humanos estavam se baseando em aspectos como sociabilidade em vez de inteligência, levando Jones e Bergen a concluir que "Fundamentalmente, o Teste de Turing não é um teste direto de inteligência, mas sim um teste de similaridade humana". Para Turing, a inteligência pode ter parecido a maior barreira para a aparência humanóide e, portanto, para a aprovação do teste. No entanto, à medida que as máquinas se tornam mais parecidas conosco, outras diferenças se tornaram mais evidentes, a ponto de a inteligência sozinha não ser suficiente para se apresentar como genuinamente humano.

Um ponto não abordado pelos autores é que os humanos se acostumaram tanto a digitar em um computador — seja para outra pessoa ou uma máquina — que o Teste deixou de ser um novo experimento sobre interação humano-computador. Agora, trata-se de um teste de hábitos humanos online. Uma implicação disso é que o teste precisa ser ampliado. Os autores escrevem que "inteligência é complexa e multifacetada", e que "nenhum único teste de inteligência poderia ser decisivo".

Na verdade, eles sugerem que o teste poderia ter resultados significativamente diferentes com designs variados. Especialistas em IA, notam eles, poderiam fazer parte do corpo de juízes. Esses especialistas podem ter uma visão diferente do que constitui um desempenho aceitável de uma máquina. Se um incentivo financeiro fosse adicionado para aumentar as apostas, os juízes humanos poderiam examinar as interações de forma mais rigorosa e atenta. Isso sugere que atitudes e expectativas influenciam o resultado. "Na medida em que o teste de Turing indica inteligência, deve ser avaliado junto a outros tipos de evidências", concluíram.

Fica a questão se o julgamento humano será, em última instância, suficiente. No filme Blade Runner, os robôs "replicantes" se tornaram tão avançados que os humanos dependem de uma máquina chamada "Voight-Kampff" para identificar quem é humano e quem é robô. À medida que a busca por AGI avança e os humanos percebem o quão difícil é definir o que é AGI ou como reconheceriam uma se encontrassem, talvez eles tenham que confiar em máquinas para avaliar a inteligência das máquinas. Ou ao menos, podem precisar perguntar para as máquinas o que estas "pensam" sobre os humanos que fazem prompts na tentativa de fazer uma máquina enganar outros humanos.

Referência: ZDNET

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima