O universo da inteligência artificial (IA) tem se concentrado recentemente em levar a IA generativa além de simples testes que os modelos de IA conseguem passar facilmente. O famoso Teste de Turing foi, de certo modo, “superado”, e o debate persiste sobre se os modelos mais recentes estão sendo desenvolvidos para driblar os testes de referência que avaliam o desempenho. O problema, conforme indicam especialistas da unidade DeepMind do Google, não está nos próprios testes, mas na maneira limitada como os modelos de IA são elaborados. Os dados utilizados para treinar a IA são muito restritos e estáticos, e nunca impulsionarão a IA para novas e melhores habilidades.
Em um artigo publicado pela DeepMind na semana passada, parte de um futuro livro pela MIT Press, os pesquisadores sugerem que a IA deve ser permitida ter “experiências” de certa forma, interagindo com o mundo para formular objetivos com base em sinais do ambiente. Eles afirmam que “incríveis novas capacidades surgirão uma vez que o potencial total do aprendizado experiencial seja aproveitado”, afirmam os acadêmicos da DeepMind, David Silver e Richard Sutton, em seu trabalho intitulado “Bem-vindo à Era da Experiência”.
Esses dois pesquisadores são figuras icônicas na área. Silver é mais conhecido por ter liderado a pesquisa que resultou no AlphaZero, o modelo de IA da DeepMind que superou humanos em jogos como xadrez e Go. Sutton é um dos dois vencedores do Prêmio Turing que desenvolveu uma abordagem de IA chamada aprendizado por reforço, que Silver e sua equipe usaram para criar o AlphaZero. A abordagem que os dois acadêmicos defendem fundamenta-se no aprendizado por reforço e nas lições extraídas do AlphaZero. Ela é chamada de “fluxos” e visa corrigir as deficiências dos grandes modelos de linguagem atuais (LLMs), que são desenvolvidos exclusivamente para responder a perguntas humanas individuais.
Silver e Sutton apontam que, logo após o surgimento do AlphaZero e de seu antecessor AlphaGo, ferramentas de IA generativa, como o ChatGPT, emergiram e “descartaram” o aprendizado por reforço. Essa mudança trouxe vantagens e desvantagens. A IA generativa foi um avanço significativo, pois o uso do aprendizado por reforço no AlphaZero estava restrito a aplicações limitadas, não conseguindo ultrapassar jogos de “informação completa”, como xadrez, onde todas as regras são conhecidas. Em contrapartida, os modelos de IA generativa podem lidar com entradas espontâneas de humanos que nunca foram encontradas antes, sem regras explícitas sobre como os resultados devem se apresentar. No entanto, abandonar o aprendizado por reforço significou que “algo foi perdido nessa transição: a capacidade de um agente se autodescobrir em seu próprio conhecimento”, observam.
Os pesquisadores observam que os LLMs “[dependem] do pré-julgamento humano”, ou seja, do que o humano deseja na fase de prompt. Essa abordagem é excessivamente limitada. Eles sugerem que o julgamento humano “impõe um teto impenetrável ao desempenho do agente”, que não consegue descobrir melhores estratégias que não são reconhecidas pelo avaliador humano. Além disso, o caráter breve e fragmentado das interações por meio de prompts nunca permite que o modelo de IA avance além das perguntas e respostas. “Na era dos dados humanos, a IA baseada em linguagem se concentrou, em grande parte, em episódios curtos de interação: por exemplo, um usuário faz uma pergunta e (talvez após alguns passos de reflexão ou ações de uso de ferramentas) o agente responde”, escrevem os pesquisadores. “O agente visa exclusivamente resultados dentro do episódio atual, como responder diretamente à questão do usuário.” Não há memória nem continuidade entre os fragmentos de interação no prompting. “Tipicamente, pouca ou nenhuma informação é transferida de um episódio para o próximo, impedindo qualquer adaptação ao longo do tempo,” afirmam Silver e Sutton.
Entretanto, em sua proposta para a Era da Experiência, “Agentes habitarão fluxos de experiência, em vez de trechos curtos de interação.” Silver e Sutton traçam uma analogia entre fluxos e o aprendizado dos humanos ao longo de uma vida de experiências acumuladas, e como eles agem com base em metas de longo prazo, e não apenas na tarefa imediata. “Agentes poderosos deveriam ter seu próprio fluxo de experiências que avança, como os humanos, ao longo de um amplo período de tempo,” escrevem os autores.
Os pesquisadores sustentam que “a tecnologia atual” é suficiente para começar a construir esses fluxos. De fato, os primeiros passos nessa direção podem ser vistos em desenvolvimentos como agentes de IA que navegam na web, incluindo a Deep Research da OpenAI. “Recentemente, uma nova onda de agentes-protótipos começou a interagir com computadores de maneira ainda mais geral, utilizando a mesma interface que os humanos usam para operar um computador,” afirmam. O agente de navegação marca “uma transição da comunicação exclusivamente privilegiada para humanos, para interações muito mais autônomas onde o agente pode agir de forma independente no mundo.”
À medida que os agentes de IA avançam além da simples navegação na web, eles precisam de uma forma de interagir e aprender com o mundo, sugerem Silver e Sutton. Eles propõem que os agentes de IA nos fluxos aprenderão através do mesmo princípio de aprendizado por reforço que o AlphaZero usou. A máquina recebe um modelo do mundo em que interage, semelhante a um tabuleiro de xadrez, junto com um conjunto de regras. À medida que o agente da IA explora e toma ações, ele recebe feedback na forma de “recompensas”. Essas recompensas treinam o modelo de IA sobre quais ações são mais ou menos valiosas em determinadas circunstâncias.
O mundo está repleto de diversos “sinais” que proporcionam essas recompensas, se o agente for permitido procurá-los, sugerem Silver e Sutton. “De onde vêm as recompensas, senão dos dados humanos? Uma vez que os agentes se conectem ao mundo através de ricas áreas de ação e observação, não faltarão sinais concretos para fornecer uma base para recompensa. De fato, o mundo está repleto de quantidades como custo, taxas de erro, fome, produtividade, métricas de saúde, métricas climáticas, lucro, vendas, resultados de exames, sucesso, visitas, rendimentos, ações, curtidas, renda, prazer/dor, indicadores econômicos, precisão, potência, distância, velocidade, eficiência ou consumo de energia. Além disso, existem inúmeros sinais adicionais que surgem da ocorrência de eventos específicos, ou de características derivadas de sequências brutas de observações e ações.”
Para dar início à formação de um agente de IA a partir de uma base, os desenvolvedores podem utilizar uma simulação de “modelo de mundo”. O modelo de mundo permite que um modelo de IA faça previsões, teste essas previsões no mundo real e use os sinais de recompensa para tornar o modelo mais realista. “À medida que o agente continua a interagir com o mundo ao longo de seu fluxo de experiências, seu modelo dinâmico é continuamente atualizado para corrigir quaisquer erros em suas previsões,” escrevem.
Silver e Sutton ainda esperam que os humanos tenham um papel na definição de objetivos para os quais os sinais e recompensas servem para guiar o agente. Por exemplo, um usuário pode especificar um objetivo amplo como “melhorar minha condição física”, e a função de recompensa pode retornar uma função da frequência cardíaca do usuário, duração do sono e passos dados. Ou o usuário pode definir um objetivo de “ajudar-me a aprender espanhol”, e a função de recompensa poderia retornar os resultados do exame de espanhol do usuário. O feedback humano torna-se “o objetivo de alto nível” que tudo o mais serve.
Os pesquisadores escrevem que agentes de IA com essas capacidades de longo alcance seriam melhores como assistentes de IA. Eles poderiam monitorar o sono e a dieta de uma pessoa ao longo de meses ou anos, oferecendo conselhos de saúde que não estão limitados a tendências recentes. Tais agentes também poderiam atuar como assistentes educacionais, acompanhando estudantes ao longo de um longo período. “Um agente de ciência poderia perseguir metas ambiciosas, como descobrir um novo material ou reduzir o dióxido de carbono,” sugerem. “Esse agente poderia analisar observações do mundo real ao longo de um período prolongado, desenvolvendo e executando simulações, além de sugerir experimentos ou intervenções no mundo real.”
Os pesquisadores sugerem que a chegada de modelos de IA “pensantes” ou “racionais”, como Gemini, R1 da DeepSeek e o o1 da OpenAI, pode ser superada por agentes de experiência. O problema com os agentes de raciocínio é que eles “imitam” a linguagem humana ao produzirem saídas verbosas sobre os passos para uma resposta, e o pensamento humano pode estar limitado por suas suposições embutidas. “Por exemplo, se um agente foi treinado para raciocinar usando pensamentos humanos e respostas de especialistas há 5.000 anos, pode ter raciocinado sobre um problema físico em termos de animismo,” oferecem. “Mil anos atrás, pode ter raciocinado em termos teístas; 300 anos atrás, em termos da mecânica newtoniana; e 50 anos atrás, em termos da mecânica quântica.” Os pesquisadores afirmam que tais agentes “desbloquearão capacidades sem precedentes,” levando a “um futuro profundamente diferente de tudo que já vimos.”
Entretanto, sugerem que também existem muitos riscos associados. Esses riscos não se concentram apenas na possibilidade de os agentes de IA tornarem o trabalho humano obsoleto, ainda que reconheçam esse ponto como uma preocupação. Agentes que “podem interagir autonomamente com o mundo ao longo de períodos prolongados para alcançar objetivos de longo prazo,” escrevem, levantam a perspectiva de que os humanos tenham menos oportunidades de “intervir e mediar as ações do agente.” Por outro lado, eles argumentam que um agente que pode se adaptar, ao contrário dos modelos de IA fixos de hoje, “poderia reconhecer quando seu comportamento está desencadeando preocupação, insatisfação ou angústia humana, e modificar seu comportamento de forma adaptativa para evitar essas consequências negativas.”
Deixando de lado os detalhes, Silver e Sutton estão confiantes de que a experiência dos fluxos gerará tanta informação sobre o mundo que irá ofuscar todos os dados do Wikipedia e do Reddit usados para treinar a IA atual. Agentes baseados em fluxos podem até ultrapassar a inteligência humana, aludindo à chegada da inteligência geral artificial ou superinteligência. “Os dados experiencialmente adquiridos eclipsarão a escala e a qualidade dos dados gerados por humanos,” escrevem os pesquisadores. “Esta mudança de paradigma, acompanhada por avanços algorítmicos no RL [aprendizado por reforço], desbloqueará novas capacidades em muitos domínios que superam aquelas possuídas por qualquer humano.” Silver também explorou o assunto em um podcast da DeepMind neste mês.
Referência: [link da matéria original]
Posts relacionados:



