Novos modelos de IA de raciocínio o3 e o4-mini lançados, além de um agente surpresa

Após o recente lançamento de uma nova família de modelos GPT-4.1, a OpenAI apresentou os modelos o3 e o4-mini na quarta-feira, a mais nova adição à sua linha já existente de modelos de raciocínio. O modelo o3, que foi apresentado em dezembro, é considerado o modelo de raciocínio mais avançado da OpenAI até o momento, enquanto o o4-mini é uma versão menor, mais acessível e mais rápida.

Os modelos o3 e o4-mini são inovadores, pois foram projetados para “pensar antes de responder”, o que significa que eles demoram um pouco mais para processar uma solicitação, mas oferecem respostas de qualidade superior. Assim como os modelos anteriores, o3 e o4-mini demonstram um desempenho consistente e até melhorado em tarefas de programação, matemática e ciências. No entanto, a grande novidade é a compreensão visual. Esses novos modelos são os primeiros da OpenAI a “pensar com imagens”, o que significa que eles não apenas visualizam uma imagem, mas conseguem integrar as informações visuais em seu processo de raciocínio. Além disso, agora é possível enviar imagens de baixa qualidade ou embaçadas, e o modelo conseguirá compreendê-las.

Outra inovaçã importante é que o3 e o4-mini têm a capacidade de usar todas as ferramentas do ChatGPT de maneira independente, como navegação na web, Python, compreensão de imagens e geração de imagens, para resolver problemas complexos que exigem várias etapas. A OpenAI afirma que essa habilidade representa um avanço em direção a um ChatGPT mais autônomo, capaz de executar tarefas em nome do usuário.

Durante a transmissão ao vivo do lançamento, a equipe explicou que, assim como uma pessoa utiliza uma calculadora para obter melhores resultados, os novos modelos podem agora empregar todas as ferramentas avançadas da OpenAI para oferecer respostas mais precisas. Por exemplo, em uma demonstração, um pesquisador apresentou um pôster de pesquisa científica ao modelo o3 e solicitou uma análise da imagem. Para chegar a uma conclusão que não estava no pôster, o modelo buscou informações na internet e examinou os diferentes elementos da imagem, gerando uma resposta conclusiva e demonstrando sua capacidade de utilizar múltiplas ferramentas autonomamente, além de analisar imagens com profundidade.

De acordo com a OpenAI, os modelos o3 e o4-mini oferecem um desempenho superior em comparação às gerações anteriores, com uma capacidade aprimorada de seguir instruções e proporcionar respostas verificáveis mais úteis. Eles superaram os modelos anteriores em testes em diversas áreas, mesmo sem o uso das ferramentas adicionais das quais dispõem. Uma breve amostra do desempenho pode ser vista abaixo, ou é possível consultar a postagem no blog para uma análise mais detalhada.

Um relatório recente apontou que os novos modelos poderiam sintetizar informações de diferentes áreas e especializações, utilizando esse conhecimento para sugerir experimentos inovadores. Fontes que testaram o modelo mencionaram que esses experimentos abrangeriam tópicos complexos, como fissão nuclear ou detecção de patógenos. A OpenAI ainda não se pronunciou oficialmente sobre essa questão.

Os modelos OpenAI o3 e o4-mini estão disponíveis a partir de hoje para assinantes, incluindo usuários do ChatGPT Plus, Pro e Team. Nos menus, os modelos estão listados como o3, o4-mini e o4-mini-high, substituindo os antigos o1, o3-mini e o3-mini-high (referindo-se às três opções de raciocínio dos modelos: baixo, médio e alto, que determinam o desempenho).

Os usuários Pro terão acesso ao modelo o3-pro em algumas semanas, mas até lá continuarão a ter acesso ao o1-pro. Os modelos também podem ser utilizados por desenvolvedores através da API. A OpenAI compartilhounos detalhes sobre a segurança dos modelos, informando que ambos foram testados em seu programa de segurança e avaliados sob a nova estrutura de preparação. Para mais informações sobre as avaliações, é possível consultar o cartão do sistema completo.

Além disso, a OpenAI lançou o Codex CLI, um agente de codificação de código aberto que opera localmente nos terminais dos usuários. O objetivo é proporcionar uma forma clara e simples de conectar modelos de IA, como o o3 e o o4-mini (com suporte para o GPT-4.1 em breve), aos códigos e tarefas que rodam no computador dos usuários. O Codex CLI é de código aberto e já está disponível no GitHub.

A OpenAI também anunciou uma iniciativa de US$ 1 milhão para apoiar projetos iniciais, outorgando doações de US$ 25 mil em créditos de API. Propostas podem ser submetidas através de um formulário disponível no site da OpenAI.

Referência: https://www.zdnet.com/article/openai-launches-new-o3-and-o4-mini-ai-models-with-visual-understanding/