A geração de vídeo por inteligência artificial tem avançado em um ritmo acelerado, com os principais desenvolvedores de tecnologia competindo para criar e comercializar seus próprios modelos. Atualmente, estamos testemunhando o surgimento de ferramentas que conseguem criar vídeos extremamente fotorealistas apenas a partir de um comando em linguagem natural. No entanto, a maioria desses vídeos gerados por IA apresentava uma limitação evidente: a ausência de áudio. Mas essa fase já ficou para trás.
Durante sua conferência anual para desenvolvedores, a I/O, realizada na terça-feira, o Google anunciou o lançamento do Veo 3, a mais recente versão de seu modelo de geração de vídeo, que agora também é capaz de gerar áudio sincronizado. Imagine que você instrua o sistema a criar um vídeo ambientado dentro de um vagão de metrô movimentado. O Veo 3 é capaz de gerar o vídeo, além de criar ruídos de fundo gerados por IA para aumentar a sensação de realismo. Segundo o Google, é possível até solicitar que o sistema produza gravações de vozes humanas. O modelo também é projetado para simular a física do mundo real e a sincronização labial, tornando-se uma ferramenta potencialmente valiosa para cineastas e avançando a missão mais ampla do Google de disponibilizar IA utilizável nas indústrias criativas. O Veo 3 já está disponível para assinantes do Gemini Ultra nos Estados Unidos e pode ser acessado através do Flow, a nova ferramenta de filmmaking impulsionada por IA do Google, que também foi apresentada na I/O desta semana.
O Veo 3 representa um desafio técnico significativo, sendo um dos primeiros modelos de um grande desenvolvedor de tecnologia a conseguir sincronizar vídeo e áudio gerados por IA. O Movie Gen da Meta, lançado em outubro, é outro exemplo. Algumas ferramentas, como o Gen-3 Alpha da Runway, possuem recursos que permitem a adição de áudio gerado por IA ao vídeo na pós-produção, mas a geração simultânea de ambos requer a capacidade e os recursos de um grande player como o Google.
Desenvolver modelos de IA capazes de gerar vídeo e áudio sincronizados é um desafio técnico complexo e uma área ativa de pesquisa na indústria de IA. Tanto o vídeo gerado por IA quanto o áudio gerado por IA são desafios técnicos distintos, e combiná-los introduz uma nova dimensão de complexidade. Para ilustrar, o vídeo consiste em uma sequência de quadros estáticos, enquanto o áudio é uma onda contínua. Sincronizar os dois, portanto, exige modelos que podem operar nessas duas modalidades, levando em conta as escalas de tempo muito diferentes em que eles operam.
Um modelo de IA que une vídeo e som também precisa levar em consideração dinâmicamente variáveis como material, distância e velocidade. Por exemplo, um carro que se desloca a 100 milhas por hora tem um som muito diferente daquele que viaja a 10 milhas por hora; um cavalo andando sobre paralelepípedos produz um som distinto de um que caminha sobre a grama.
Referência: Sabrina Ortiz/ZDNET.
Posts relacionados:



