CHRISTOPH BURGSTEDT/SCIENCE PHOTO LIBRARY/Getty
Os modelos de IA generativa rapidamente demonstraram sua capacidade de realizar tarefas técnicas com eficácia. A adição de habilidades de raciocínio a esses modelos desbloqueou capacidades inesperadas, permitindo uma abordagem mais profunda a perguntas complexas, resultando em respostas de maior qualidade e precisão – ou assim pensávamos.
Recentemente, a Apple divulgou um relatório de pesquisa intitulado "A Ilusão do Pensamento: Compreendendo as Forças e Limitações dos Modelos de Raciocínio Através da Lente da Complexidade do Problema". Como o título sugere, o documento de 30 páginas investiga se os grandes modelos de raciocínio (LRMs), como os modelos o1 da OpenAI, o modelo de raciocínio Claude 3.7 Sonnet da Anthropic, e o DeepSeek R1, conseguem entregar o "pensamento" avançado que anunciam.
Para conduzir a investigação, a Apple criou uma série de experimentos na forma de diversos quebra-cabeças que testaram os modelos além das métricas tradicionais de matemática e programação. Os resultados revelaram que mesmo os modelos mais inteligentes enfrentam um ponto de retornos decrescentes, ou seja, elevar a capacidade de raciocínio para resolver a complexidade de um problema é eficaz somente até um certo limite.
Se você tem interesse no tema, recomendo a leitura do relatório na íntegra. No entanto, para aqueles que não dispõem de tempo, abaixo apresento os principais tópicos da pesquisa.
O que são os grandes modelos de raciocínio (LRMs)?
No artigo, a Apple utiliza o termo "grandes modelos de raciocínio" para se referir ao que normalmente chamamos apenas de modelos de raciocínio. Esse tipo de modelo de linguagem foi inicialmente popularizado com o lançamento do modelo o1 da OpenAI, posteriormente seguido pelo o3.
A ideia por trás dos LRMs é simples. Os humanos são incentivados a pensar antes de falar para produzir comentários de maior valor; da mesma forma, quando um modelo é encorajado a processar um prompt por mais tempo, a qualidade de sua resposta tende a ser melhor, permitindo que ele responda adequadamente a solicitações mais complexas.
Métodos como "Cadeia de Pensamento" (CoT) também promovem esse raciocínio adicional. O CoT incentiva um LLM a decompor um problema complexo em etapas lógicas menores e solucionáveis. Em algumas ocasiões, o modelo compartilha essas etapas de raciocínio com os usuários, tornando-o mais interpretável, o que permite que os usuários guiem suas respostas e identifiquem falhas no raciocínio. O processo bruto do CoT geralmente é mantido em sigilo para evitar que usuários mal-intencionados identifiquem fraquezas e descubram como contornar um modelo.
Esse processamento adicional implica que esses modelos requerem mais poder computacional, o que os torna mais caros ou pesados em termos de tokens e os leva a demorar mais para apresentar respostas. Por essa razão, não são adequados para tarefas comuns do dia a dia, mas sim para tarefas mais complexas ou relacionadas a STEM.
Isso também significa que as métricas utilizadas para testar esses LRMs geralmente estão ligadas à matemática ou à programação, que é uma das preocupações iniciais da Apple no relatório. A empresa afirma que essas métricas enfatizam a resposta final, pouco se concentrando no processo de raciocínio, o que as torna suscetíveis à contaminação de dados. Assim, a Apple estabeleceu um novo paradigma experimental.
Os experimentos
A Apple configurou quatro quebra-cabeças controláveis: a Torre de Hanói, que envolve a transferência de discos entre pinos; Saltos de Damas, que consiste em posicionar e trocar peças de damas; Atravessando o Rio, que desafia a mover formas através de um rio; e o Mundo dos Blocos, onde os usuários trocam itens coloridos.
Entender a escolha dos quebra-cabeças é fundamental para compreender os resultados do relatório. A Apple escolheu esses puzzles para entender melhor os fatores que influenciam o que as métricas existentes consideram desempenho superior. Especificamente, os quebra-cabeças permitem um ambiente mais "controlado", onde, mesmo com a intensidade do desafio ajustada, o raciocínio se mantém inalterado.
"Esses ambientes permitem a manipulação precisa da complexidade dos problemas, mantendo processos lógicos consistentes, possibilitando uma análise mais rigorosa dos padrões e limitações do raciocínio", explicaram os autores no documento.
Os experimentos compararam as versões "pensantes" e "não pensantes" de modelos populares de raciocínio, incluindo o Claude 3.7 Sonnet e o DeepSeek R1 e V3. O nível de dificuldade foi manipulado ao aumentar o tamanho dos problemas.
Outro elemento importante na configuração é que todos os modelos receberam o mesmo orçamento máximo de tokens (64k). Com isso, foram geradas 25 amostras para cada modelo e o desempenho médio foi registrado.
Os resultados
As descobertas mostraram que existem diferentes vantagens no uso de modelos pensantes em comparação aos não pensantes em níveis variados. No primeiro nível, ou quando a complexidade do problema é baixa, os modelos não pensantes podem ter um desempenho igual ou até superior aos modelos pensantes, sendo mais eficientes em termos de tempo.
A principal vantagem dos modelos pensantes se revela no segundo nível de complexidade média, quando a diferença de desempenho entre os dois tipos de modelos aumenta consideravelmente. Porém, no terceiro nível, onde a complexidade dos problemas é máxima, o desempenho de ambos os tipos de modelo caiu a zero.
"Os resultados mostram que, embora os modelos pensantes atrasem esse colapso, eles também encontram as mesmas limitações fundamentais que seus congêneres não pensantes", afirmam os autores. Eles observaram um colapso semelhante ao testar cinco modelos de raciocínio de ponta nas mesmas tarefas utilizadas no primeiro experimento. O mesmo padrão foi identificado: à medida que a complexidade aumentava, a precisão diminuía, eventualmente estabilizando em zero.
Ainda mais interessante é a mudança na quantidade de tokens de raciocínio utilizados. Inicialmente, com o aumento da complexidade, os modelos alocam com precisão os tokens necessários para resolver os problemas. No entanto, conforme se aproximam do ponto de queda na precisão, eles começam a reduzir seu esforço de raciocínio, mesmo com a dificuldade aumentando, quando era esperado que utilizassem ainda mais.
O relatório identifica outras falhas: por exemplo, mesmo quando instruídos com as etapas necessárias para resolver um problema, os modelos pensantes ainda falhavam em fazê-lo com precisão, apesar de ser tecnicamente menos desafiador.
O que isso significa?
A percepção pública sobre o relatório divergiu em relação ao que realmente significa para os usuários. Enquanto alguns acharam conforto nos resultados, argumentando que eles revelam que estamos mais distantes de uma AGI do que muitos executivos de tecnologia gostariam de admitir, muitos especialistas sinalizaram problemas metodológicos.
As discrepâncias identificadas incluem a necessidade de um número maior de tokens para resolver problemas de maior complexidade do que o limite de 64k definido pela Apple. Outros notaram que modelos, como o o3-mini e o o4-mini, que poderiam ter um desempenho bom, não foram incluídos no experimento. Um usuário até alimentou o relatório ao o3 e pediu que identificasse falhas metodológicas. O ChatGPT apresentou algumas críticas, como o teto de tokens e a validade estatística.
Minha interpretação: Se você considerar os resultados do relatório em seu valor nominal, os autores não dizem explicitamente que os LRMs não são capazes de raciocinar ou que não vale a pena utilizá-los. Em vez disso, o documento destaca limitações desses modelos que ainda podem ser investigadas e aprimoradas no futuro – uma conclusão que se aplica à maioria dos avanços no espaço da IA. O relatório serve como um lembrete de que nenhum desses modelos é infalível, independentemente de quão avançados se apresentem ou do desempenho que tenham nos benchmarks. Avaliar um LLM com base em métricas levanta uma variedade de problemas, já que essas métricas frequentemente testam apenas tarefas específicas de alto nível que não se traduzem com precisão em aplicações cotidianas desses modelos.
(Referência: [link da matéria])
Posts relacionados:



