Este novo chipset Snapdragon suporta 220 tokens por segundo – entenda a importância disso.

Qualcomm acaba de lançar o chipset Snapdragon 8 Elite Gen 5, que vem equipado com a CPU Qualcomm Oryon e a GPU Qualcomm Adreno da próxima geração. Este novo componente oferece a capacidade mais rápida de processamento de IA diretamente no dispositivo. No cenário atual, em que a inteligência artificial desempenha um papel cada vez mais significativo, recursos de IA eficazes se tornam determinantes na escolha de smartphones pelos consumidores. Assim, os chipsets que sustentam esses dispositivos precisam se tornar mais potentes, e a nova aposta da Qualcomm definitivamente se destaca.

Em uma entrevista com Durga Malladi, VP Sênior e GM de planejamento tecnológico, soluções de borda e data center na Qualcomm, ele esclareceu que o Snapdragon 8 Elite Gen 5 consegue processar até 220 tokens por segundo usando um modelo de linguagem pequeno com 3 bilhões de parâmetros. Esses números colocam o novo chipset como o SoC móvel mais rápido para a execução de modelos de raciocínio diretamente no dispositivo, quando comparado a outros dados já publicados.

Malladi ressaltou a evolução impressionante, afirmando: "Se pensarmos bem, passamos de quase 20 para isso, o que representa um aumento de cerca de 10 vezes na quantidade de tokens por segundo agora disponíveis." Ele acrescentou que "Eu não consigo ler 200 palavras por segundo. Ninguém aqui consegue."

Na quarta-feira, conversei com Malladi após a apresentação da nova plataforma móvel da Qualcomm, o Snapdragon 8 Elite Gen 5, durante a sua cúpula anual. O lançamento destacou o potencial do chipset para aprimorar experiências avançadas em IA que impactam áreas como fotografia, videografia, áudio, jogos e, claro, inferência em IA.

Os tokens por segundo referem-se à quantidade de informações que modelos de IA conseguem processar em um período determinado. Quanto mais tokens um modelo é capaz de processar simultaneamente, mais rápida é a experiência do usuário e a realização de tarefas complexas diretamente no dispositivo. O processamento local também é relevante, pois não apenas reduz a latência, mas também aumenta a privacidade, mantendo os dados no próprio aparelho, evitando o uso da nuvem.

Malladi comentou: "Isso pode ser utilizado para traduzir rapidamente um PDF, por exemplo, de um idioma para outro quase que instantaneamente. Tudo isso pode ser realizado de forma muito ágil."

Fonte: ZDNet