Gemma 3 atinge 98% de precisão do DeepSeek utilizando apenas uma GPU

A economia da inteligência artificial tem sido um assunto bastante discutido recentemente, com a startup DeepSeek AI afirmando ter encontrado economias de escala impressionantes ao implantar chips de GPU. Agora, a Google também está no jogo. Nesta quarta-feira, a empresa anunciou que seu mais recente modelo de linguagem de código aberto, o Gemma 3, quase alcançou a precisão do R1 da DeepSeek, utilizando uma fração do poder computacional estimado.

Usando as pontuações “Elo”, um sistema de medição comum para classificar jogadores de xadrez e atletas, a Google alega que o Gemma 3 está a 98% da pontuação do R1, com 1338 contra 1363 do R1. Isso significa que o R1 é considerado superior ao Gemma 3. No entanto, segundo a estimativa da Google, seriam necessários 32 chips de GPU “H100” da Nvidia para alcançar a pontuação do R1, enquanto o Gemma 3 utiliza apenas um GPU H100. A empresa afirma que o equilíbrio entre poder computacional e a pontuação Elo cria uma “situação ideal”.

Em um comunicado, a Google apresentou o novo programa como “o modelo mais capaz que pode ser executado em uma única GPU ou TPU”, referindo-se ao chip de IA customizado da empresa, a “unidade de processamento tensorial”. O Gemma 3 oferece desempenho de ponta para seu tamanho, superando modelos como Llama-405B, DeepSeek-V3 e o3-mini em avaliações preliminares de preferência humana no ranking do LMArena, segundo o comunicado. “Isso ajuda a criar experiências de usuário envolventes que podem ser executadas em um único host de GPU ou TPU”.

O modelo da Google também supera a pontuação Elo do Llama 3 da Meta, que a empresa estima que precisaria de 16 GPUs. É importante notar que os números de chips H100 usados pela concorrência são estimativas da Google; a DeepSeek AI divulgou apenas um exemplo de uso de 1.814 GPUs H800 da Nvidia, que são menos potentes, para fornecer respostas com o R1. Informações mais detalhadas estão disponíveis em um post no blog para desenvolvedores na HuggingFace, onde o repositório do Gemma 3 está disponível. Os modelos Gemma 3, destinados ao uso em dispositivos móveis em vez de centros de dados, possuem um número de parâmetros, ou “pesos” neurais, consideravelmente menor do que o R1 e outros modelos de código aberto. Em geral, quanto maior o número de parâmetros, mais poder computacional é exigido.

O código do Gemma oferece contagens de parâmetros de 1 bilhão, 4 bilhões, 12 bilhões e 27 bilhões, o que é relativamente pequeno para os padrões atuais. Em contrapartida, o R1 possui 671 bilhões de parâmetros, dos quais pode utilizar seletivamente 37 bilhões, ignorando ou desativando partes da rede. O principal avanço para tornar essa eficiência possível é uma técnica de IA amplamente utilizada chamada destilação, na qual os pesos do modelo treinado de um modelo maior são extraídos e inseridos em um modelo menor, como o Gemma 3, para conferir-lhe capacidades aprimoradas. O modelo destilado é também submetido a três diferentes medidas de controle de qualidade, incluindo Aprendizado por Reforço com Feedback Humano (RLHF), assegurando que as saídas de modelos de linguagem como o GPT sejam satisfatórias e úteis; além de Aprendizado por Reforço com Feedback de Máquinas (RLMF) e Aprendizado por Reforço com Feedback de Execução (RLEF), que, segundo a Google, aprimoram as capacidades matemáticas e de programação do modelo, respectivamente.

Um post no blog de desenvolvedores da Google detalha essas abordagens, enquanto um outro artigo descreve as técnicas utilizadas para otimizar a versão menor, o modelo de 1 bilhão de parâmetros, para dispositivos móveis. Entre essas técnicas estão quatro métodos comuns de engenharia de IA: quantização, atualização dos layouts do cache “chave-valor”, melhoria do tempo de carregamento de certas variáveis e “compartilhamento de pesos de GPU”. A empresa não compara apenas as pontuações Elo, mas também o Gemma 3 com o anterior Gemma 2 e seus modelos Gemini de código fechado em testes de benchmark como a tarefa de programação LiveCodeBench. O Gemma 3 geralmente apresenta resultados abaixo da precisão dos Gemini 1.5 e 2.0, mas a Google considera os resultados dignos de nota, afirmando que o Gemma 3 “apresenta desempenho competitivo em comparação com os modelos Gemini fechados”.

Os modelos Gemini têm uma contagem de parâmetros muito maior que o Gemma. O principal avanço do Gemma 3 sobre o Gemma 2 é uma janela de “contexto” mais longa, que se refere ao número de tokens de entrada que podem ser mantidos na memória para o modelo processar em um determinado momento. O Gemma 2 aceitava apenas 8.000 tokens, enquanto o Gemma 3 suporta até 128.000, o que é considerado uma “janela de contexto longa”, mais adequada para trabalhar em documentos inteiros ou livros. (Os modelos Gemini e outros modelos fechados ainda são muito mais capazes, com uma janela de contexto de 2 milhões de tokens para o Gemini 2.0 Pro). O Gemma 3 também é multimodal, uma capacidade que o Gemma 2 não possuía. Isso significa que ele pode lidar com entradas de imagem além do texto, fornecendo respostas a perguntas como “O que tem nesta foto?”. Por fim, o Gemma 3 suporta mais de 140 idiomas, ao contrário do suporte apenas para o inglês oferecido pelo Gemma 2.

Uma variedade de outras características interessantes estão presentes nas entrelinhas. Por exemplo, um problema bem conhecido com todos os grandes modelos de linguagem é que eles podem memorizar partes de seus conjuntos de dados de treinamento, o que pode levar a vazamentos de informações e violações de privacidade caso os modelos sejam utilizados de maneira maliciosa. Pesquisadores da Google testaram a possibilidade de vazamento de informações ao amostrar dados de treinamento e observar quanta informação poderia ser extraída diretamente do Gemma 3 em comparação com seus outros modelos. “Descobrimos que os modelos Gemma 3 memorizam textos longos a uma taxa muito mais baixa do que os modelos anteriores”, notam, o que teoricamente significa que o modelo é menos vulnerável a vazamentos de informações. Aqueles que desejam mais detalhes técnicos podem ler o artigo técnico do Gemma 3.

Referência: ZDNET

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima