A última versão do modelo de IA para geração de vídeos do Google, Veo 3, continua a se desenvolver rapidamente. Com a recente atualização, o modelo agora permite que os usuários criem clipes de vídeo de oito segundos, incluindo áudio gerado por IA, a partir de uma única imagem estática. De acordo com a documentação atualizada do Google Cloud, a nova funcionalidade já está disponível como um "oferecimento em prévia". Josh Woodward, líder do Google Labs e do aplicativo Gemini, mencionou em um post que a empresa estava avançando na criação de capacidades de imagem para vídeo no Veo 3.
Um influenciador, por exemplo, poderia enviar um retrato e solicitar ao modelo que gerasse um breve clipe dela caminhando por uma passarela enquanto usa um produto de uma marca com a qual está associada. O Veo 3 incluiria automaticamente ruídos de fundo, como os murmúrios da multidão e os passos dela no chão; o usuário poderia ainda pedir que a representação gerada por IA falasse algumas linhas, como no exemplo mencionado.
As marcas também poderiam se beneficiar dessa nova funcionalidade, fornecendo uma imagem de um produto e solicitando um clipe que o mostre sob diferentes ângulos. A Amazon desenvolveu uma ferramenta de IA para anunciantes com capacidades semelhantes, enquanto a Meta se compromete a ir além, planeando automatizar todo o processo de produção publicitária. A nova capacidade de imagem para vídeo do Veo 3 pode ajudar profissionais criativos de diversas áreas a economizar tempo e recursos que normalmente seriam gastos na organização de filmagens no local. Além disso, isso pode disponibilizar mais materiais criativos para uso em redes sociais e outros canais.
O Veo 3 foi revelado pelo Google em maio durante sua conferência de desenvolvedores anual, a I/O. O modelo rapidamente chamou a atenção de pesquisadores em IA e profissionais criativos devido à sua habilidade de integrar de forma fluida vídeo e áudio gerados por IA, um feito técnico complexo que promete abrir novas oportunidades para a produção cinematográfica assistida por IA. Ele também se destaca em simular a física do mundo real e não é afetado por muitas falhas técnicas que atrapalhavam ferramentas de vídeo geradas por IA anteriormente.
Não há indícios de que o investimento do Google no Veo 3 diminua tão cedo. Na semana passada, o CEO do Google DeepMind, Demis Hassabis, sugeriu em um post que o modelo poderia em breve ser usado para gerar mundos virtuais para videogames. A proximidade dessa previsão é interessante, considerando que a Microsoft demitiu 9.000 funcionários de sua divisão de jogos na semana anterior.
Inicialmente disponível apenas no Gemini Ultra e Flow, o Veo 3 foi lançado como uma prévia pública no mês passado — todos os clientes e parceiros do Google Cloud podem acessá-lo no Vertex AI Media Studio. O modelo pode ser utilizado em 159 países.
No entanto, o Veo 3 gerou preocupações relacionadas ao potencial da IA em amplificar a disseminação de desinformação online e manipular usuários em redes sociais. Também surgiram questionamentos sobre a origem dos dados utilizados para seu treinamento, que, segundo Hassabis, pode incluir vídeos do YouTube. Devido ao fato de que as empresas de IA coletaram uma grande parte do texto, imagens, áudio e conteúdo de vídeo que utilizam para treinar seus modelos a partir da internet aberta, criadores de diversas indústrias, como publicação, arte e cinema, levantaram questões sobre direitos autorais em relação a esses geradores. Para quem busca uma ferramenta de vídeo gerada por IA mais segura, vale a pena conferir o Marey da Moonvalley, que afirma ser treinado exclusivamente com dados licenciados.
Posts relacionados:



