Google apresenta o Gemini 2.5 Flash, seu modelo de pensamento mais econômico.

Poucos dias após a revelação do Gemini 2.5 Pro, o Google já está avançando para seu próximo modelo de alto desempenho. Nesta quinta-feira, a empresa lançou uma "versão inicial" do Gemini 2.5 Flash em preview, disponível no Gemini API, AI Studio e Vertex AI. Este modelo tem um limite de conhecimento até janeiro de 2025 e é capaz de processar entradas de texto, imagens, vídeos e áudio, além de contar com uma janela de contexto de um milhão de tokens.

Fonte: ZDNet

Segundo o Google, a nova versão amplia as capacidades do Flash 2.0 com um raciocínio aprimorado, mas "sem sacrificar a famosa rapidez ou o custo." Os modelos de raciocínio tendem a dedicar mais tempo "pensando" – ou interpretando uma consulta – antes de fornecer uma resposta, resultando em um output mais detalhado e direto que, idealmente, se alinha melhor às necessidades do usuário, em comparação com os modelos anteriores que priorizam a velocidade. Além disso, tais modelos estão mais preparados para atender a problemas ou tarefas que envolvem múltiplas etapas.

Fonte: ZDNet

O Google ressalta que o Gemini 2.5 Flash se destacou em desafios difíceis na ChatBot Arena, ocupando a segunda posição, atrás apenas do 2.5 Pro. Chamando o novo modelo de seu mais econômico, a empresa explica que o 2.5 Flash "permite que os desenvolvedores configurem a quantidade de raciocínio necessária para maximizar o desempenho." Isso confere aos desenvolvedores um "orçamento de raciocínio", ou seja, a capacidade de pagar por raciocínio apenas quando realmente necessário. Com o raciocínio ativado, o preço do output salta de 60 centavos por um milhão de tokens para 3,50 dólares.

Fonte: ZDNet

Se os desenvolvedores não definirem um orçamento, o modelo analisará as necessidades de raciocínio da consulta avaliando a complexidade do pedido. Por exemplo, o modelo classifica perguntas com baixa necessidade de raciocínio, como "Quantos estados existem nos EUA?", separadamente de problemas matemáticos que exigem múltiplas etapas. O Google observa que, para replicar a latência e o custo do Flash 2.0, os desenvolvedores devem estabelecer o orçamento em 0.

Fonte: ZDNet

O Gemini 2.5 Flash alcançou 12% no "Humanity’s Last Exam" (HLE), uma nova referência alternativa aos testes da indústria que se tornaram muito simples para modelos em rápida evolução. Esse desempenho superou modelos concorrentes, incluindo Claude 3.7 Sonnet e DeepSeek R1, mas não superou o recém-lançado o4-mini da OpenAI, que obteve 14% no teste.

Fonte: ZDNet

Você pode experimentar o Gemini 2.5 Flash em preview por meio da Gemini API no Google AI Studio e Vertex AI.

Fonte: ZDNet

Referência: Materia Original

Fonte: ZDNet