Whisk, a nova ferramenta de criação de imagens com IA do Google, desembarca no Brasil

A nova ferramenta de inteligência artificial do Google, chamada Whisk, foi lançada no Brasil dois meses após sua apresentação mundial. Essa funcionalidade permite que os usuários façam o upload de fotos para que uma imagem combinada gerada por IA seja criada, mesmo sem a necessidade de inserir qualquer texto explicativo. Os usuários podem fornecer imagens representando o tema, o ambiente e o estilo desejados, e a ferramenta fará a combinação em uma única imagem. O Whisk pode ser acessado através de um site nos Laboratórios do Google.

Fonte: ZDNet

De acordo com o Google, o Whisk é um experimento que cria imagens de forma estilizada e única, diferenciando-se das abordagens tradicionais. A ideia principal por trás do Whisk é proporcionar um recurso divertido de IA, em vez de algo que busque uma perfeição profissional. Com essa ferramenta, os usuários têm a chance de "recriar" a imagem final ao editar suas entradas e mesclar diferentes categorias para gerar imagens variadas, como um brinquedo de pelúcia, um broche ou um adesivo. Embora seja possível adicionar texto para direcionar certos detalhes, isso não é um requisito necessário para a criação da imagem.

Fonte: ZDNet

“O Whisk foi projetado para permitir que os usuários recriem um objeto, uma cena e um estilo de maneira inovadora e criativa, oferecendo uma exploração visual rápida, em vez de edições minuciosas em pixels”, declarou o diretor de gerenciamento de produtos do Google Labs. O Whisk é baseado na inteligência artificial generativa desenvolvida pela DeepMind, laboratório de IA adquirido pelo Google em 2014.

Fonte: ZDNet

A ferramenta é suportada pela IA principal do Google, chamada Gemini, que foi lançada em dezembro de 2023. Além disso, ela utiliza o Imagen 3, o mais recente gerador de imagem a partir de texto lançado pela DeepMind. Quando os usuários enviam suas imagens, o Gemini cria uma legenda que é posteriormente processada pelo Imagen 3. Esse processo captura a "essência" do tema, em vez de uma cópia exata, permitindo a recriação da imagem final, embora o resultado possa divergir do pedido inicial. Por exemplo, a imagem gerada pode apresentar uma altura, estilo de cabelo ou tom de pele diferente dos elementos da imagem de entrada, segundo informações disponibilizadas pelo Google.

Fonte: ZDNet

Quando o criador de imagem a partir de texto do Gemini foi apresentado em fevereiro, a empresa enfrentou críticas iniciais pela produção de imagens com imprecisões históricas. Dan Ives, diretor administrativo e analista sênior da Wedbush Securities, comentou que o Whisk representa mais um “momento de mostrar potencial” para o Google na competitiva área de IA e tecnologia. Ele ainda destacou que a DeepMind é um ativo essencial para a empresa, observando que os produtos de IA fazem parte do “tesouro” de novas ofertas do Google para 2025, que inclui um novo sistema operacional Android desenvolvido em parceria com a Samsung e Qualcomm.

Fonte: ZDNet

Referência: CNN Internacional

Fonte: ZDNet