O novo modelo da DeepSeek representa um novo desafio para a IA proprietária?

DeepSeek lançou seu modelo V3.2 na segunda-feira. Este novo modelo tem como objetivo manter a inteligência artificial acessível em alta competitividade para desenvolvedores. A versão V3.2 intensifica a corrida entre modelos abertos e proprietários. A empresa de inteligência artificial chinesa DeepSeek novamente atraiu a atenção com o lançamento de V3.2, a mais recente atualização em sua série de modelos V3. Anunciado na segunda-feira, o modelo, que se baseia em uma versão experimental do V3.2 revelada em outubro, foi disponibilizado em duas variantes: “Thinking” e a mais poderosa “Speciale”. De acordo com a DeepSeek, o V3.2 avança ainda mais as capacidades da IA de código aberto. Assim como outros modelos da empresa, seu custo é uma fração do que modelos proprietários custam, e os pesos subjacentes podem ser acessados pelo Hugging Face.

DeepSeek ganhou destaque em janeiro com o lançamento do R1, um modelo de IA de raciocínio de código aberto que superou o o1 da OpenAI em diversas métricas importantes. Com o desempenho do V3.2 competindo também com poderosos modelos proprietários, será que isso revirará a indústria da IA mais uma vez? Rumores começaram a surgir em setembro de que a DeepSeek estava planejando lançar seu próprio agente mais econômico para concorrer com empresas como OpenAI e Google. Agora, parece que essa competição finalmente chegou. O V3.2 é a mais recente iteração do V3, um modelo que a DeepSeek disponibilizou quase um ano atrás e que também contribuíu para o desenvolvimento do R1. Segundo dados divulgados pela empresa, o V3.2 Speciale supera modelos proprietários líderes do setor, como o GPT-5 High da OpenAI, o Claude 4.5 Sonnet da Anthropic e o Gemini 3.0 Pro do Google em alguns benchmarks de raciocínio.

Em termos de custos, o acesso ao Gemini 3 via API pode chegar a até $4,00 por 1 milhão de tokens, enquanto o V3.2 Speciale sai por apenas $0,028 por 1 milhão de tokens. O novo modelo também obteve um desempenho em nível ouro nas Olimpíadas Internacionais de Matemática (IMO) e nas Olimpíadas Internacionais de Informática, de acordo com informações da empresa. “O DeepSeek-V3.2 surge como uma alternativa altamente econômica em cenários de agentes, estreitando significativamente a disparidade de desempenho entre modelos abertos e proprietários de última geração, enquanto incurre em custos substancialmente mais baixos”, afirmou a empresa em um artigo de pesquisa. Embora essas alegações ainda sejam debatidas, a tendência confirma o padrão da DeepSeek de reduzir custos a cada nova versão, o que pode, logicamente, desafiar os investimentos exorbitantes que laboratórios proprietários como a OpenAI fazem em seus modelos.

A DeepSeek declarou que desenvolveu o V3.2 para ajudar a comunidade de IA de código aberto a acompanhar as recentes conquistas técnicas feitas por empresas que constroem modelos de código fechado. De acordo com o artigo da empresa, as capacidades de agente e raciocínio demonstradas por modelos proprietários de destaque “aceleraram em um ritmo significativamente mais acentuado” do que as de seus equivalentes de código aberto. O engenheiro Charles Kettering costumava dizer que “um problema bem definido é um problema meio resolvido”. Nesse espírito, a DeepSeek começou o desenvolvimento de seu novo modelo tentando diagnosticar as razões pelas quais os modelos de código aberto apresentaram um desempenho inferior, dividindo isso em três fatores.

Primeiramente, modelos de código aberto têm se apoiado no que os pesquisadores de IA conhecem como “atenção vanilla” — um mecanismo lento e que demanda muitos recursos computacionais para ler entradas e gerar saídas, o que dificulta o processamento de sequências mais longas de tokens. Além disso, enfrentaram uma fase de pós-treinamento com limitações computacionais, dificultando sua execução em tarefas mais complexas. Ao contrário dos modelos proprietários, eles têm dificuldades em seguir instruções longas e generalizar entre tarefas, tornando-se agentes ineficientes.

Como resposta, a empresa introduziu a DeepSeek Sparse Attention (DSA), um mecanismo que diminui “a complexidade crítica de computação sem comprometer o desempenho em contextos longos”, conforme descrito no artigo de pesquisa. Com a atenção vanilla tradicional, um modelo gera suas saídas comparando cada token individual de uma consulta com todos os tokens em seus dados de treinamento — um processo que consome muitos recursos. Para ilustrar, imagine ter que procurar uma frase específica em uma grande pilha de livros espalhados num gramado. Você conseguiria, mas isso exigiria muito tempo e um exame minucioso de muitas páginas.

A abordagem DSA busca ser mais inteligente, não mais trabalhosa. É implementada em duas fases: uma busca inicial chamada “indexador relâmpago”, que realiza uma varredura de alto nível dos tokens em seus dados de treinamento para identificar um pequeno subconjunto que provavelmente será mais relevante para uma determinada consulta. Em seguida, a busca se aprofunda naquele subconjunto utilizando toda a sua capacidade computacional para encontrar o que procura. Em vez de começar com uma grande pilha de livros, você agora pode entrar em uma biblioteca organizada, caminhar até a seção relevante e realizar uma busca muito menos estressante e demorada para encontrar a passagem desejada.

A equipe da empresa então se dedicou a resolver a questão do pós-treinamento, criando modelos “especialistas” para testar e refinar as habilidades do V3.2 em escrita, perguntas e respostas, matemática, programação, raciocínio lógico, tarefas de agente, codificação de agente e busca de agente. Esses especialistas atuam como tutores com a tarefa de transformar o modelo de um generalista em um multi-especialista.

Conforme mencionado no artigo de pesquisa, o DeepSeek V3.2 “efetivamente fecha a lacuna entre eficiência computacional e capacidades avançadas de raciocínio” e “[desbloqueia] novas possibilidades para agentes de IA robustos e generalizáveis” através da IA de código aberto. No entanto, existem algumas ressalvas. Primeiramente, o “conhecimento do mundo” do novo modelo — o nível de compreensão prática sobre o mundo real que pode ser inferido a partir de um corpus de dados de treinamento — é consideravelmente mais limitado em comparação com modelos proprietários líderes do mercado. Além disso, ele requer mais tokens para gerar saídas de qualidade semelhante àquelas produzidas por modelos proprietários de vanguarda e enfrenta dificuldades em tarefas mais complexas. A DeepSeek planeja continuar a diminuir a distância entre seus modelos de código aberto e seus concorrentes proprietários, escalando a capacidade computacional durante o pré-treinamento e aperfeiçoando sua “receita de pós-treinamento”.

Ainda assim, é um grande feito que uma empresa — e uma que tem sede na China, diga-se de passagem — tenha desenvolvido um modelo de código aberto que pode competir com as capacidades de raciocínio de alguns dos modelos proprietários mais avançados atualmente disponíveis. Isso reforça a evidência crescente de que a “lacuna de desempenho” entre modelos de código aberto e fechado não é um fato fixo e irreversível, mas sim uma discrepância técnica que pode ser superada por meio de abordagens criativas no pré-treinamento, atenção e pós-treinamento. Mais importante, o fato de que seus pesos subjacentes estão quase gratuitamente acessíveis para os desenvolvedores pode minar o argumento básico que tem sido promovido pelos principais desenvolvedores de modelos de código fechado: o de que vale a pena pagar para ter acesso a essas ferramentas, já que são as melhores do mercado. Se os modelos de código aberto superarem os modelos proprietários, não fará sentido para a maioria das pessoas continuar pagando pelos últimos.

Referência: NurPhoto/Contributor/NurPhoto via Getty Images.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima