A verdade sobre a inteligência artificial: desmistificando as promessas do setor

Desde que programas de inteligência artificial começaram a impressionar o público em geral, estudiosos da área têm feito afirmações sobre a importância mais profunda dessa tecnologia, chegando até mesmo a sugerir a possibilidade de uma compreensão similar à humana. Essa filosofia se prolifera porque, mesmo os cientistas que desenvolveram modelos de IA como o GPT-5 da OpenAI, não compreendem completamente como esses sistemas operam.

Os programas de IA, como os Modelos de Linguagem de Grande Escala (LLMs), são frequentemente comparados a “caixas pretas”. Apesar de sua capacidade de produzir resultados impressionantes, em grande parte, não conseguimos observar todos os processos que ocorrem desde o momento em que um input é fornecido, como uma solicitação, até a geração de um output, por exemplo, um trabalho acadêmico ou sugestões para um novo romance. Nessa confusão, os cientistas têm usado termos coloquiais como “raciocínio” para descrever o funcionamento desses programas, implicando ou afirmando que eles podem “pensar”, “razão” e “saber” de maneira similar aos humanos. Nos últimos dois anos, a retórica tem superado a ciência, com executivos de IA utilizando hipérboles para distorcer realizações técnicas que eram, na verdade, simples avanços de engenharia.

Em um comunicado à imprensa divulgado em setembro passado, a OpenAI anunciou seu modelo o1 de raciocínio, afirmando que “Assim como um humano pode levar um tempo para responder a uma pergunta difícil, o o1 utiliza uma cadeia de pensamentos ao tentar resolver um problema”, indicando que “o o1 aprende a aprimorar sua cadeia de pensamento e refinar as estratégias que utiliza”. Essa antropomorfização levou a uma série de alegações exageradas, como a declaração do CEO da OpenAI, Sam Altman, em junho, ao afirmar que “Estamos além do horizonte de eventos; a decolagem começou. A humanidade está próxima de construir uma superinteligência digital.”

No entanto, uma reação está se formando entre os pesquisadores de IA, que estão desmistificando as alegações de inteligência semelhante à humana por meio de uma análise técnica rigorosa. Em um artigo publicado recentemente no servidor de pré-impressão arXiv, os autores – Chengshuai Zhao e seus colegas da Universidade Estatal do Arizona – desmontaram as alegações de raciocínio através de um experimento simples. Concluíram que “o raciocínio em cadeia de pensamento é uma miragem frágil” e não representa um mecanismo de inferência lógica genuína, mas sim uma forma sofisticada de correspondência de padrões estruturados.

O termo “cadeia de pensamento” (CoT) é frequentemente utilizado para descrever o fluxo de saída verborrágico que vemos quando um modelo de raciocínio complexo, como o GPT-o1 ou DeepSeek V1, demonstra como trabalha em um problema antes de fornecer a resposta final. Contudo, essa série de afirmações não é tão profunda ou significativa quanto parece, argumentam Zhao e sua equipe. Eles observam que “os sucessos empíricos do raciocínio CoT levam à percepção de que os grandes modelos de linguagem (LLMs) engajam em processos inferenciais deliberados”. Entretanto, eles explicam que “um corpo crescente de análises revela que os LLMs tendem a se apoiar em semântica superficial e pistas, ao invés de procedimentos lógicos”. “Os LLMs constroem cadeias superficiais de lógica baseadas em associações aprendidas de tokens, frequentemente falhando em tarefas que se desviam de heurísticas de bom senso ou templates conhecidos”.

Para testar a hipótese de que os LLMs apenas fazem correspondência de padrões, e não raciocinam de verdade, eles treinaram o LLM GPT-2 da OpenAI, de 2019, desde o início, um processo que chamaram de “alquimia de dados”. O modelo foi treinado desde a sua base para manipular apenas as 26 letras do alfabeto em inglês. Esse corpus simplificado permitiu que Zhao e sua equipe testassem o LLM com um conjunto de tarefas muito simples, todas relacionadas à manipulação de sequências de letras.

Utilizando um número limitado de tokens e tarefas, a equipe variou as tarefas expostas ao modelo de linguagem em seus dados de treinamento em comparação com as que eram vistas apenas quando o modelo finalizado era testado. Descobriram que, quando as tarefas não estavam nos dados de treinamento, o modelo falhava em completá-las corretamente utilizando uma cadeia de pensamento. O modelo tentava usar tarefas que já havia visto durante o treinamento, e seu “raciocínio” soava bom, mas a resposta gerada estava errada. Conforme explicado por Zhao e sua equipe, “Os LLMs tentam generalizar os caminhos de raciocínio com base nos mais semelhantes […] que foram vistos durante o treinamento, o que leva a caminhos de raciocínio corretos, mas respostas incorretas”.

Os autores oferecem algumas lições a serem aprendidas. Primeiramente: “Cuidado com a dependência excessiva e a falsa confiança”, aconselham, uma vez que “a capacidade dos LLMs de produzir ‘nonsense fluente’ – cadeias de raciocínio plausíveis, mas logicamente falhas – pode ser mais enganosa e danosa do que uma resposta claramente incorreta, pois projeta uma falsa aura de confiabilidade”. Além disso, sugerem testar tarefas que, explicitamente, não são prováveis de ter sido incluídas nos dados de treinamento, a fim de que o modelo de IA seja submetido a testes rigorosos.

O importante na abordagem de Zhao e equipe é que ela corta a hipérbole e nos leva de volta à essência de entender o que exatamente a IA está fazendo. Quando a pesquisa original sobre a cadeia de pensamento, “A Indução de Raciocínio em Modelos de Linguagem de Grande Escala através de Prompting em Cadeia de Pensamento”, foi realizada por Jason Wei e colegas da equipe Google Brain em 2022 – pesquisa que já foi citada mais de 10.000 vezes – os autores não fizeram alegações sobre raciocínio real. Wei e sua equipe notaram que solicitar que um LLM listasse os passos em um problema, como um problema aritmético, tendia, em média, a levar a soluções mais corretas. Eles foram cautelosos para não afirmar habilidades semelhantes às humanas.

Desde então, as afirmações de Altman e diversas notas de imprensa de promotores de IA têm enfatizado cada vez mais a natureza humana do raciocínio utilizando uma retórica casual e descuidada, que não respeita a descrição técnica pura de Wei e sua equipe. O trabalho de Zhao e sua equipe nos lembra que devemos ser específicos, e não supersticiosos, sobre o que a máquina realmente está fazendo, evitando alegações exageradas.

Referência: https://www.zdnet.com/article/the-failure-of-ai-reasoning-is-a-breaking-point-for-exaggerated-claims-over-more-superintelligent-systems/

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima