Netflix: A IA que faz objetos sumirem de vídeos… e a física!

Netflix Lança o VOID: A IA Que Apaga Objetos de Vídeos e Faz a FÍSICA ACONTECER Como Mágica!

Olá, pessoal! Aqui é o Lucas Tech, e hoje a gente vai mergulhar em uma novidade que vai balançar o mundo da edição de vídeo! Quem já tentou remover um objeto de uma filmagem sabe que a parte "suja" do trabalho não é tirar o objeto em si, mas fazer a cena parecer que ele nunca esteve lá. Tipo, você tira uma pessoa segurando um violão, e o violão fica lá, flutuando, desafiando a gravidade! Isso dava um trabalhão danado para as equipes de VFX de Hollywood, semanas e mais semanas para ajustar cada detalhe. Mas segura essa: uma equipe de pesquisadores da Netflix e da INSAIT, da Sofia University, acaba de lançar o VOID (Video Object and Interaction Deletion)! E, galera, ele faz tudo isso automaticamente!

O Segredo Sujo da Edição de Vídeo (e Como o VOID Muda Tudo!)

Sabe qual é a grande sacada aqui? O VOID não só apaga objetos dos vídeos, mas também remove todas as interações que eles causavam na cena. Não estamos falando só de efeitos secundários, tipo sombras e reflexos, mas de interações físicas de verdade! Pensa: você remove uma pessoa, e se ela estava segurando algo, esse objeto cai naturalmente, obedecendo à gravidade! É muita inteligência artificial envolvida para pensar em causalidade.

VOID: Muito Além de Simplesmente "Pintar" o Fundo

Modelos de inpainting de vídeo que a gente usa hoje em dia são bons em preencher a área onde o objeto estava. Eles são tipo pintores de fundo super sofisticados. Mas eles não "raciocinam" sobre o que deveria acontecer. Se eu tiro um ator que está com um violão, o que acontece com o violão? Ele flutua? Não!

As ferramentas existentes até corrigem artefatos visuais, mas quando rola uma interação mais complexa, tipo uma colisão, elas falham miseravelmente. O VOID é diferente! Ele foi construído em cima do CogVideoX e ajustado para entender a cena de uma forma única: não só "quais pixels eu devo preencher?", mas "o que é fisicamente plausível depois que esse objeto sumir?". O exemplo clássico é o do violão: a pessoa sai, o violão cai no chão como se a pessoa nunca estivesse lá, porque o modelo entende que ele estava sendo suportado e que a gravidade entra em ação! E o melhor: o VOID foi testado contra os grandes do mercado (ProPainter, DiffuEraser, Runway, etc.) e se saiu melhor na preservação da dinâmica da cena! É poder demais!

Os Segredos por Trás do VOID: CogVideoX e a Quadmask

Para chegar nesse nível de realismo, o VOID usa uma arquitetura de respeito! Ele foi criado a partir do CogVideoX-Fun-V1.5-5b-InP – um modelo da Alibaba PAI – e depois foi super bem treinado para inpainting de vídeo, com uma condição especial: a quadmask que "entende" as interações.

Pense no CogVideoX como um "Stable Diffusion" para vídeos, um modelo de difusão que trabalha com sequências de quadros em vez de imagens estáticas. É um Transformer 3D com 5 bilhões de parâmetros! Ele pega o vídeo, a tal da quadmask e um texto descrevendo a cena após a remoção.

Mas a grande estrela técnica aqui é a quadmask! Ao invés de uma máscara binária (remove isso/mantém isso), a quadmask tem 4 valores. Ela "codifica" qual é o objeto principal a ser removido, quais são as regiões de sobreposição, quais são as áreas afetadas (tipo o violão caindo, sabe?) e o fundo que deve ficar intacto.

Na prática, cada pixel da máscara recebe um desses valores:

0: O objeto principal que está sendo removido.
63: Regiões de sobreposição entre o objeto principal e as áreas afetadas.
127: A região afetada pela interação – ou seja, aquelas coisas que vão se mover ou mudar por causa da remoção.
255: O fundo, para manter como está.

Isso dá ao modelo um mapa semântico estruturado de o que está acontecendo na cena, não só onde o objeto está. É como dar um "manual de instruções" para a IA!

Duas Passagens Para a Perfeição (e Estabilidade!)

O VOID trabalha com um pipeline de inferência em duas etapas, usando dois "cérebros" (checkpoints de transformer) treinados em sequência. Você pode usar a Passagem 1 sozinha, que já é suficiente para a maioria dos vídeos, ou encadear as duas para ter uma consistência temporal ainda maior.

A Passagem 1 (void_pass1.safetensors) é o modelo básico. Mas a Passagem 2 existe para um propósito super específico: corrigir um problema conhecido, o tal do "object morphing" (quando os objetos se deformam um pouco ao longo dos quadros). Se o modelo detecta essa falha, a Passagem 2 entra em ação, rodando a inferência de novo, mas usando um "ruído" especial da primeira passagem para estabilizar a forma dos objetos nas novas trajetórias. É um verdadeiro "fix" de estabilidade de forma, não apenas para vídeos longos.

Como o VOID Aprendeu a "Sentir" a Física? Dados Sintéticos na Veia!

Agora, aqui é onde a coisa fica muito interessante! Treinar um modelo para entender interações físicas assim exige vídeos "pareados": a mesma cena, com e sem o objeto, e onde a física se desenrola corretamente em ambos os casos. O problema? Dados pareados do mundo real nessa escala simplesmente não existem!

Então, a equipe foi lá e criou esses dados sinteticamente! Eles usaram duas fontes principais:

HUMOTO: Interações humano-objeto renderizadas no Blender com simulação de física. A cena é montada com um humano e objetos, renderizada com o humano, e depois o humano é removido da simulação e a física é recalculada a partir daquele ponto. O resultado? Um vídeo "contrafactual" fisicamente correto: objetos que estavam sendo segurados ou apoiados caem exatamente como deveriam!
Kubric: Interações apenas entre objetos, usando os Google Scanned Objects.

Juntos, esses dois geraram um banco de dados de vídeos pareados onde a física é comprovadamente correta, e não apenas uma aproximação feita por um ser humano. Genial, não é?

Meus Destaques Rápidos Sobre o VOID:

Muito além de preencher pixels: O VOID não só corrige artefatos visuais, mas entende a causalidade física. Se você tira uma pessoa segurando algo, o objeto cai naturalmente.
A quadmask é a inovação central: Esqueça as máscaras binárias! A quadmask de 4 valores (0, 63, 127, 255) informa ao modelo não só o que remover, mas também quais regiões ao redor serão fisicamente afetadas.
Duas passagens para consistência: A Passagem 1 faz o básico, e a Passagem 2 é um "controle de qualidade" que corrige problemas de deformação de objetos, garantindo formas estáveis.
Dados sintéticos foram essenciais: Sem dados reais suficientes, a equipe gerou vídeos pareados usando simulação de física (HUMOTO e Kubric), garantindo que a física fosse sempre perfeita.

Minha Visão

Gente, como entusiasta de tecnologia e alguém que já se aventurou na edição de vídeo, eu fico simplesmente chocado com o que o VOID representa. É um salto gigantesco! Imagina o impacto disso para cineastas independentes, criadores de conteúdo e até grandes estúdios. O tempo e o custo de pós-produção para remover elementos indesejados podem ser drasticamente reduzidos. É o tipo de ferramenta que democratiza um pouco mais a produção de conteúdo de alta qualidade. Não é só uma IA que apaga coisas, é uma IA que entende o mundo físico e recria a realidade de uma forma que antes era reservada apenas para orçamentos milionários e equipes gigantescas de VFX. Isso abre um leque de possibilidades criativas que mal consigo imaginar agora! É o futuro da edição de vídeo batendo na nossa porta!

E você, o que achou dessa novidade da Netflix e INSAIT? Consegue imaginar as possibilidades infinitas que o VOID abre para a criação de conteúdo e para o futuro do audiovisual? Me conta nos comentários!

Referência: Matéria Original