Poucos dias após a revelação do Gemini 2.5 Pro, o Google já está avançando para seu próximo modelo de alto desempenho. Nesta quinta-feira, a empresa lançou uma "versão inicial" do Gemini 2.5 Flash em preview, disponível no Gemini API, AI Studio e Vertex AI. Este modelo tem um limite de conhecimento até janeiro de 2025 e é capaz de processar entradas de texto, imagens, vídeos e áudio, além de contar com uma janela de contexto de um milhão de tokens.
Segundo o Google, a nova versão amplia as capacidades do Flash 2.0 com um raciocínio aprimorado, mas "sem sacrificar a famosa rapidez ou o custo." Os modelos de raciocínio tendem a dedicar mais tempo "pensando" – ou interpretando uma consulta – antes de fornecer uma resposta, resultando em um output mais detalhado e direto que, idealmente, se alinha melhor às necessidades do usuário, em comparação com os modelos anteriores que priorizam a velocidade. Além disso, tais modelos estão mais preparados para atender a problemas ou tarefas que envolvem múltiplas etapas.
O Google ressalta que o Gemini 2.5 Flash se destacou em desafios difíceis na ChatBot Arena, ocupando a segunda posição, atrás apenas do 2.5 Pro. Chamando o novo modelo de seu mais econômico, a empresa explica que o 2.5 Flash "permite que os desenvolvedores configurem a quantidade de raciocínio necessária para maximizar o desempenho." Isso confere aos desenvolvedores um "orçamento de raciocínio", ou seja, a capacidade de pagar por raciocínio apenas quando realmente necessário. Com o raciocínio ativado, o preço do output salta de 60 centavos por um milhão de tokens para 3,50 dólares.
Se os desenvolvedores não definirem um orçamento, o modelo analisará as necessidades de raciocínio da consulta avaliando a complexidade do pedido. Por exemplo, o modelo classifica perguntas com baixa necessidade de raciocínio, como "Quantos estados existem nos EUA?", separadamente de problemas matemáticos que exigem múltiplas etapas. O Google observa que, para replicar a latência e o custo do Flash 2.0, os desenvolvedores devem estabelecer o orçamento em 0.
O Gemini 2.5 Flash alcançou 12% no "Humanity’s Last Exam" (HLE), uma nova referência alternativa aos testes da indústria que se tornaram muito simples para modelos em rápida evolução. Esse desempenho superou modelos concorrentes, incluindo Claude 3.7 Sonnet e DeepSeek R1, mas não superou o recém-lançado o4-mini da OpenAI, que obteve 14% no teste.
Você pode experimentar o Gemini 2.5 Flash em preview por meio da Gemini API no Google AI Studio e Vertex AI.
Referência: Materia Original
Posts relacionados:



