OpenAI tem ampliado continuamente suas ofertas com o ChatGPT, adicionando um assistente de voz com inteligência artificial, compreensão de arquivos e imagens, capacidades avançadas de pesquisa, agentes de IA e muito mais. No entanto, havia uma lacuna notável: um gerador de imagens realmente eficiente.
Na semana passada, a OpenAI anunciou o GPT-4o para geração de imagens, que se mostra significativamente superior — embora mais lento — em comparação aos modelos DALL-E anteriormente disponibilizados. Ele enfrenta desafios complexos, como a criação de imagens realistas e, de maneira impressionante, a representação precisa de textos. Durante uma demonstração ao vivo, o CEO da OpenAI, Sam Altman, acompanhado pelos pesquisadores Gabriel Goh e Prafulla Dhariwal, solicitou ao modelo 4o que criasse uma foto a partir de um ponto de vista específico, que incluía um folheto com várias informações. Após alguns segundos de processamento, o resultado não apenas acertou na direção cinematográfica, mas também reproduziu todo o texto corretamente.
Além disso, o novo modelo apresenta diversas funções que os geradores de imagem anteriores da OpenAI não tinham, como a possibilidade de referência de imagem, permitindo a criação de novas versões de uma imagem existente (como uma versão em anime ou um autorretrato) ou como inspiração para trabalhos completamente novos. Esta ferramenta foi projetada para se integrar ao fluxo de trabalho dos criativos, podendo gerar imagens com fundo transparente, utilizar cores específicas a partir de códigos HEX ou aplicar as capacidades conversacionais avançadas do chatbot nas gerações. Por exemplo, durante a demonstração, quando solicitado a incluir "humor" na imagem, o modelo gerou um texto que atendia a essa solicitação. O gerador de imagens está acessível dentro do ChatGPT, permitindo que os usuários façam ajustes nas imagens através de conversas de múltiplas etapas, facilitando a personalização e utilizando o contexto das gerações anteriores para criar novas imagens. Com acesso à internet, o GPT-4o também incorpora esse contexto na criação das imagens. Segundo a empresa, a geração de imagens do GPT-4o demonstra uma forte aderência às instruções. O modelo consegue lidar com 10 a 20 objetos diferentes, o que possibilita gerar uma quantidade considerável de elementos em uma única solicitação.
Um novo aspecto desta ferramenta é que agora ela pode criar conteúdos de temática mais ousada, algo característico do modelo Grok de Elon Musk. Durante a transmissão ao vivo, Altman mencionou que será possível utilizar a geração de imagens do GPT-4o para criar conteúdos potencialmente ofensivos "dentro dos limites razoáveis". Em uma postagem posterior no X, Altman acrescentou: "Nosso objetivo é que a ferramenta não produza conteúdos ofensivos, a menos que você deseje, sendo que, neste caso, faz isso de forma razoável. Como discutimos em nossa especificação do modelo, acreditamos que conceder essa liberdade intelectual e controle aos usuários é o caminho certo, mas vamos acompanhar a situação e ouvir a sociedade."
O post no blog que anunciou o modelo destacou que serão bloqueadas solicitações que violem políticas de conteúdo, incluindo materiais de abuso sexual infantil e deepfakes sexuais. Outra salvaguarda implementada é a limitação do que pode ser criado quando se referem a pessoas reais, incluindo "salvaguardas particularmente robustas em relação à nudez e violência gráfica". Os usuários podem acessar o Cartão do Sistema para obter todas as informações relacionadas à segurança do modelo de geração de imagens 4o.
Como acessar
Os novos recursos de geração de imagens estão sendo liberados agora no ChatGPT e Sora. Todos os usuários, incluindo os gratuitos, podem acessar este modelo. No entanto, se você não ficou impressionado ao testá-lo na versão gratuita, isso pode ocorrer porque o único método que ativa o uso do GPT-4o é digitando o atalho "/create image". Se você apenas digitar um pedido como "Crie uma imagem de XYZ", o sistema irá defaultar para o modelo DALL-E, que irá renderizar fotos com qualidade significativamente inferior. A OpenAI não especifica claramente os limites da geração de imagens, mas após criar três imagens da minha conta gratuita, fui avisado de que alcancei meu limite diário. Isso significa que, para ter acesso ampliado à geração de imagens, é necessário ser assinante. Para usuários individuais, a melhor opção é o ChatGPT Plus, que custa R$ 20 por usuário ao mês e oferece muitos outros benefícios, incluindo o gerador de vídeo Sora da OpenAI. Na ocasião em que escrevi este artigo, consegui acessar o gerador de imagens a partir da minha conta Plus. Usuários de empresas e instituições de ensino terão acesso em breve, e desenvolvedores poderão utilizar a API nas próximas semanas.
Quando o DALL-E foi lançado pela primeira vez, ele existia em seu próprio site; na época, parecia ser a maior novidade. Desde então, foi transferido exclusivamente para o ChatGPT; ali, o modelo parecia inferior em comparação a outros geradores de imagens mais avançados de concorrentes como Midjourney, Google e Adobe. Esta atualização agora ajuda a nivelar o campo de atuação, permitindo que ele concorra melhor com outros modelos. No entanto, se os usuários ainda desejarem acessar o DALL-E, poderão fazê-lo por meio de um DALL-E dedicado.
Referência da matéria: ZDNET
Posts relacionados:



