NVIDIA desvenda ProRL: LLMs aprendem sozinhos, em massa!

NVIDIA Acaba de Reinventar o Treinamento de Agentes de IA: Conheça o ProRL AGENT!

Olá, pessoal! Aqui é o Lucas Tech, e hoje a gente vai mergulhar de cabeça em uma novidade da NVIDIA que promete agitar o mundo da inteligência artificial. Sabe aqueles agentes de IA que resolvem problemas complexos e interagem com o mundo real? Pois é, a NVIDIA encontrou uma forma de treiná-los muito mais rápido e de um jeito superinteligente com o lançamento do ProRL AGENT! Preparem-se, porque isso aqui é game changer!

O Coração da Inovação: Rollout-as-a-Service

A NVIDIA Research nos apresentou o ProRL AGENT, uma infraestrutura super escalável que foi pensada para treinar agentes de LLM (Large Language Model) que precisam de várias "rodadas" de interação para aprender, usando Aprendizado por Reforço (RL). A grande sacada? Eles adotaram uma filosofia que chamaram de "Rollout-as-a-Service" (ou "Execução como Serviço").

Basicamente, o sistema separa a orquestração das interações do agente (os "rollouts") do processo de treinamento em si. Pra que isso? Pra resolver um problema gigante que existia: os conflitos de recursos. Antes, a interação do agente com o ambiente (que exige muita Entrada/Saída ou I/O) e a atualização da política do modelo (que exige muita GPU) aconteciam quase que juntas, causando gargalos e atrasando o desenvolvimento desses agentes incríveis. Agora, cada coisa no seu lugar!

O Problema Principal: Tudo Misturado

Imagine que você está tentando fazer duas coisas totalmente diferentes ao mesmo tempo, no mesmo computador: uma que exige que você digite e salve muitos arquivos (I/O) e outra que exige que você faça cálculos super pesados com a placa de vídeo (GPU). Se você tentar fazer as duas ao mesmo tempo, seu computador vai engasgar, certo?

É exatamente o que acontecia com o treinamento de agentes de LLM multi-turn. Essas tarefas envolvem interações com ambientes externos – tipo repositórios de código ou sistemas operacionais – usando ferramentas de forma iterativa. Muitos frameworks que existem hoje, como SkyRL, VeRL-Tool, Agent Lightning, rLLM e GEM, embutem o controle dessas "execuções" (rollouts) diretamente no processo de treinamento.

Essa "mistura" causava dois problemas principais:

Requisitos de Sistema Conflitantes: As execuções são limitadas por I/O: precisam criar ambientes isolados (sandboxes), manter sessões de ferramentas ativas e coordenar tudo de forma assíncrona. Já o treinamento é intenso em GPU: focado em passar os dados pra frente e pra trás na rede neural e sincronizar gradientes. Rodar os dois no mesmo processo causava interferência e diminuía a eficiência do hardware.
Dificuldades de Manutenção: Ter a lógica das execuções dentro do treinador tornava muito difícil mudar para outros backends de treinamento ou adicionar novos ambientes de execução sem ter que reescrever boa parte do código. Uma dor de cabeça!

Design do Sistema: Rollout-as-a-Service em Ação

O ProRL AGENT funciona como um serviço HTTP totalmente independente, que gerencia o ciclo de vida completo dessas execuções. O treinador de RL interage com esse serviço apenas por uma API, sem precisar saber dos detalhes da infraestrutura por baixo. Isso é genial, galera!

Pipeline Assíncrono em Três Etapas

Para garantir o máximo de velocidade, o serviço organiza as execuções em uma espécie de "linha de montagem" assíncrona com três estágios:

INIT (Inicialização): Trabalhadores específicos iniciam os contêineres dos ambientes isolados (sandboxes) e configuram as ferramentas necessárias.
RUN (Execução): Outros trabalhadores conduzem o loop do agente de múltiplas interações e coletam os dados de trajetória.
EVAL (Avaliação): Por fim, trabalhadores de avaliação pontuam os resultados contra a "verdade fundamental" (o que seria o resultado correto) para gerar os sinais de recompensa para o agente.

Ao dividir cada etapa em um grupo de trabalhadores independente, o ProRL AGENT permite que essas fases se sobreponham em diferentes tarefas. Ou seja, uma avaliação mais demorada (como a execução de um conjunto completo de testes) não atrapalha o processo de execução das outras tarefas. Tudo flui!

Ambientes Isolados para HPC e Ferramentas Otimizadas

O ProRL AGENT usa o Singularity para criar seus ambientes isolados (sandboxes). A grande vantagem do Singularity sobre o Docker, por exemplo, é que ele permite a execução sem privilégios de "root", algo essencial para rodar em clusters de Computação de Alto Desempenho (HPC) que são gerenciados por sistemas como o Slurm.

O sistema também inclui várias otimizações para reduzir a latência na execução de ferramentas, que muitas vezes é o que mais pesa no tempo total das execuções:

Bash Eficiente: Trocaram o multiplexador de terminal tmux por um pseudo-terminal direto baseado em ptyprocess, o que reduziu a latência dos comandos de shell de 0,78 segundos para 0,42 segundos. Quase a metade!
API IPython Direta: Conectam-se a kernels persistentes via uma API in-process, eliminando a sobrecarga da rede.
Sockets de Domínio Unix (UDS): Substituíram o loopback TCP para comunicação entre o agente e o servidor de execução dentro do contêiner, cortando ainda mais a latência.

Recursos Avançados para RL Escalável

A infraestrutura do ProRL AGENT traz mecanismos para melhorar a estabilidade do treinamento e o uso do hardware:

Balanceamento de Carga e Reutilização do Cache de Prefixo

O serviço gerencia um pool de backends de inferência de LLM (tipo o vLLM) usando uma estrutura de dados chamada min-heap. Quando uma tarefa é atribuída, todas as chamadas subsequentes dentro daquela tarefa são direcionadas para o mesmo backend. Essa estratégia é fantástica porque maximiza a reutilização do cache de prefixo, o que significa que o tempo de inferência é reduzido em várias interações do agente. Mais velocidade, menos gasto!

Comunicação "Token-in/Token-out"

Para eliminar o problema do "desvio de re-tokenização" (onde a sequência de tokens gerada durante a execução poderia ser diferente da usada no treinamento), o ProRL AGENT usa os IDs dos tokens como a representação oficial em todo o processo. Assim, as probabilidades de log e os IDs são transmitidos sem alterações do backend de inferência para o treinador. Garantia de consistência total!

Implementação Otimizada do DAPO

O sistema suporta o Dynamic Sampling Policy Optimization (DAPO), que filtra os prompts "não informativos" – aqueles que geram recompensas uniformes e não ajudam o agente a aprender. O ProRL AGENT usa um mecanismo de reabastecimento assíncrono para manter o fluxo máximo, encerrando trabalhos ativos redundantes mais cedo, assim que o número desejado de prompts informativos é alcançado. Inteligência pura!

Resultados Impressionantes no SWE-Bench Verified

O sistema foi testado usando modelos Qwen3 em várias escalas, e os resultados são de cair o queixo! O ProRL AGENT consistentemente superou as linhas de base reproduzidas:

Escala do Modelo	Linha de Base Reproduzida	ProRL Agent (RL)
Qwen3-4B	14.8	21.2
Qwen3-8B	9.6	18.0
Qwen3-14B	15.4	23.6

Observação: O resultado anterior reportado para SkyRL-Agent-14B-v0 era de 21.6.

Além da engenharia de software, o sistema mostrou sua versatilidade em diversas áreas como STEM, Matemática e Código, demonstrando um crescimento constante das recompensas durante o treinamento de RL. E o melhor: testes de escalabilidade confirmaram que o fluxo de execução aumenta de forma quase linear conforme mais nós de computação são adicionados. É poder de processamento de verdade!

Os Pontos Chave para Entender

Desacoplamento Arquitetural: O ProRL AGENT trata todo o ciclo de vida da execução do agente – incluindo inicialização do ambiente, execução de ferramentas e pontuação de recompensa – como um serviço HTTP independente. Isso separa as tarefas intensivas em I/O do treinamento da política intensiva em GPU.
Ganhos de Performance Significativos: Essa infraestrutura permitiu que o modelo Qwen3-8B quase dobrasse seu desempenho no benchmark SWE-Bench Verified (de 9,6% para 18,0%), enquanto o modelo Qwen3-14B melhorou de 15,4% para 23,6%.
Redução da Latência do Sistema: Otimizações específicas, como a substituição do tmux pelo ptyprocess para execução de shell, reduziram a latência de ação de 0,78s para 0,42s, contribuindo para uma escalabilidade de throughput quase linear entre os nós de computação.
Eliminação do Desvio de Tokenização: O framework utiliza um pipeline de comunicação "token-in/token-out", garantindo que os IDs exatos dos tokens gerados durante a execução sejam passados para o treinador sem o risco de re-tokenização com perda de dados.
Implantação Nativas em HPC: Ao usar Singularity em vez de Docker, o ProRL AGENT suporta execução sem root e integração nativa com Slurm, permitindo o treinamento de agentes em larga escala em clusters de computação de alto desempenho compartilhados.

Minha Visão

Cara, essa notícia da NVIDIA é um divisor de águas! Pensar que a gente pode ter agentes de IA que aprendem mais rápido e de forma muito mais eficiente, sem aqueles travamentos e gargalos que a gente via antes, é simplesmente sensacional. Pra mim, isso significa que as inovações em inteligência artificial vão acelerar ainda mais. Não é só uma questão de otimizar códigos; é sobre abrir as portas para IAs mais capazes em todos os campos, desde resolver problemas complexos de programação até auxiliar em pesquisas científicas de ponta. O futuro da IA, com agentes autônomos e superinteligentes, está cada vez mais perto e, o melhor, mais acessível para os pesquisadores. É uma otimização de infraestrutura que tem um impacto gigantesco no que a IA vai conseguir fazer no mundo real. A NVIDIA está elevando o patamar de novo!

E aí, o que vocês acham dessa super novidade da NVIDIA? Já estão pensando em quais tarefas esses agentes de LLM superpotentes poderiam nos ajudar no dia a dia ou revolucionar indústrias? Deixem seus comentários aqui embaixo! Bora trocar uma ideia!

Referência: Matéria Original