El servicio de streaming global Netflix ha presentado VOID, un framework de código abierto diseñado para eliminar objetos de video mientras preserva las interacciones físicas que crean, abordando las limitaciones observadas en las herramientas tradicionales de inpainting y borrado de objetos.
Históricamente, eliminar un objeto de una escena ha sido sencillo, pero garantizar que el entorno se comporte de manera realista después ha planteado desafíos significativos. Por ejemplo, eliminar a una persona que sostiene una guitarra deja el instrumento suspendido de manera antinatural, y eliminar a un buceador de una piscina puede dejar el agua sin movimiento. Los equipos de efectos visuales tradicionalmente han corregido estos problemas mediante procesamiento manual, un proceso que consume mucho tiempo y puede extenderse de días a semanas para una sola escena.
VOID, abreviatura de Video Object and Interaction Deletion, está destinado a resolver estas complicaciones. A diferencia de los métodos convencionales que simplemente rellenan píxeles faltantes, el sistema predice resultados físicamente consistentes para la escena una vez que se elimina el objeto.
Aprovecha una combinación de tecnologías para lograr esto. Gemini de Google analiza la escena para identificar áreas que se verán afectadas por la eliminación, mientras que SAM2 de Meta segmenta los objetos que se van a eliminar. Estos resultados se codifican en un quadmask, un mapa de cuatro valores que indica qué áreas borrar, cuáles se superponen, cuáles se ven afectadas físicamente y cuáles permanecen intactas. Un modelo de difusión de video construido sobre CogVideoX de Alibaba luego reconstruye la escena de manera físicamente plausible. Un segundo paso opcional aplica flujo óptico para corregir cualquier distorsión de la reconstrucción inicial.
Las demostraciones de VOID muestran resultados convincentes: los globos ascienden naturalmente cuando se elimina un sostén, los bloques mantienen la estabilidad cuando se eliminan bloques no relacionados, y las superficies de las piscinas permanecen inalteradas después de que se borra una persona. En un estudio de preferencia humana con 25 participantes, VOID fue favorecido el 64,8 por ciento de las veces, superando a Runway, una alternativa comercial líder, que logró solo el 18,4 por ciento.
Este lanzamiento marca la primera herramienta de IA disponible públicamente de Netflix Research. Con licencia Apache 2.0, VOID puede usarse comercialmente y está alojado en Hugging Face. Los requisitos de hardware actualmente limitan el acceso, ya que se necesita una GPU de 40GB VRAM para ejecutar el modelo, pero las optimizaciones futuras y los costos de infraestructura reducidos pueden ampliar la disponibilidad. VOID representa un cambio en la tecnología de producción de video, pasando de simples herramientas de borrado hacia sistemas capaces de comprender y reconstruir escenas de manera realista, un desarrollo con implicaciones significativas para los flujos de trabajo profesionales.
La publicación Netflix presenta VOID: framework de código abierto para la eliminación de objetos de video físicamente consistente apareció primero en Metaverse Post.


