Nvidia se destaca em benchmarks de IA generativa, superando dois chips de IA concorrentes.

Os chips de GPU de uso geral da Nvidia novamente dominaram um dos benchmarks mais renomados para avaliar o desempenho de chips em inteligência artificial, desta vez com um foco renovado em aplicações de IA generativa, como os grandes modelos de linguagem (LLMs). A competição, na verdade, não foi acirrada.

No teste de benchmarks MLPerf, organizado pelo MLCommons, uma consórcia da indústria, sistemas desenvolvidos por SuperMicro, Hewlett Packard Enterprise, Lenovo e outras empresas – equipados com até oito chips da Nvidia – conquistaram a maior parte dos primeiros lugares.

O teste avalia a velocidade com que as máquinas podem gerar tokens, processar consultas ou produzir amostras de dados – conhecido como inferência de IA – e esta é a quinta edição desse benchmark, que já está em andamento há anos. Nesta temporada, o MLCommons atualizou os testes de velocidade com duas novas avaliações que representam usos comuns da IA generativa. Um dos testes analisa quão rapidamente os chips operam no LLM Llama 3.1 405b, um dos programas de IA gerativa maiores e mais utilizados. O MLCommons também introduziu uma versão interativa do menor Llama 2 70b, que simula as interações de um chatbot, onde o tempo de resposta é crucial. As máquinas são avaliadas quanto à rapidez na geração do primeiro token de saída do modelo de linguagem, simulando a necessidade de respostas imediatas a solicitações.

Um terceiro teste novo mede a velocidade de processamento de redes neurais gráficas, que lidam com problemas compostos por várias entidades e suas relações, como em uma rede social. Essas redes têm ganho relevância como parte de programas que utilizam IA generativa. Por exemplo, a unidade DeepMind do Google utilizou extensivamente redes gráficas para alcançar avanços significativos em previsões de dobramento de proteínas com seu modelo AlphaFold 2 em 2021.

Um quarto teste novo avalia quão rapidamente os dados de sensoriamento LiDAR podem ser organizados em um mapa rodoviário de um veículo. O MLCommons elaborou sua própria versão de uma rede neural para este teste, combinando abordagens já existentes de código aberto.

A competição MLPerf é composta por computadores montados por empresas como Lenovo e HPE, seguindo requisitos rigorosos para a precisão da saída de redes neurais. Cada sistema enviado reportou ao MLCommons sua melhor velocidade na produção de saídas por segundo. Em algumas tarefas, o benchmark avalia a latência média, ou seja, o tempo necessário para que a resposta retorne do servidor.

As GPUs da Nvidia obtiveram os melhores resultados em quase todos os testes na divisão fechada, onde as regras para a configuração de software são as mais rigorosas. A concorrente AMD, com sua GPU MI300X, conseguiu a melhor pontuação em dois dos testes do Llama 2 70b, gerando 103.182 tokens por segundo, um desempenho significativamente superior ao segundo melhor resultado obtido pela nova GPU Blackwell da Nvidia. O sistema da AMD que conquistou essa vitória foi montado por uma nova participante no benchmark MLPerf, a startup MangoBoost, que fabricam placas adicionais que podem acelerar a transferência de dados entre unidades de GPU. A empresa também desenvolve software para otimizar o atendimento de IA generativa, chamado LLMboost.

A Nvidia, por sua vez, contesta a comparação da pontuação da AMD com seu resultado Blackwell, mencionando a necessidade de “normalizar” as pontuações com base na quantidade de chips e “nós” computacionais usados. Dave Salvator, diretor de produtos de computação acelerada da Nvidia, escreveu em um e-mail: “Os resultados da MangoBoost não refletem uma comparação de desempenho precisa em relação aos resultados da NVIDIA. Os testes da AMD aplicaram 4 vezes o número de GPUs – 32 MI300X – em comparação com 8 B200s da NVIDIA, e ainda assim apenas obtiveram um resultado 3,83% superior ao envio da NVIDIA. O envio da NVIDIA com 8 B200 realmente superou os 32 MI300X da MangoBoost na submissão do servidor Llama 2 70B.”

O Google também apresentou um sistema que destacou seu chip Trillium, a sexta geração de sua Unidade de Processamento Tensor (TPU) desenvolvida internamente. Esse sistema ficou muito atrás da Blackwell da Nvidia em um teste de quão rapidamente o computador poderia responder a consultas para o teste de geração de imagens Stable Diffusion.

A mais recente rodada de benchmarks MLPerf contou com menos concorrentes para a Nvidia do que em algumas edições anteriores. Por exemplo, a gigante dos microprocessadores, Intel, com sua unidade Habana, não apresentou nenhuma submissão com seus chips, assim como a gigante de chips móveis Qualcomm também ficou de fora desta vez.

Os benchmarks ofereceram alguns direitos de bragging para a Intel. Todo sistema de computador requer não apenas a GPU para acelerar os cálculos de IA, mas também um processador host para gerenciar as funções normais de agendamento de tarefas e gerenciamento de memória e armazenamento. Na divisão fechada de datacenter, o microprocessador Xeon da Intel foi o processador host que alimentou sete dos 11 primeiros sistemas, enquanto apenas três vitórias foram para o microprocessador servidor EPYC da AMD. Isso representa uma melhoria para a Intel em comparação com anos anteriores.

O 11º sistema de melhor desempenho, no benchmark de velocidade para processar o gigante Llama 3.1 405b da Meta, foi montado pela própria Nvidia, sem um microprocessador da Intel ou da AMD a bordo. Em vez disso, a Nvidia utilizou o chip Grace-Blackwell 200, onde a GPU Blackwell está conectada no mesmo pacote ao microprocessador Grace da Nvidia.

Referência: MLCommons

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima