Глобальный стриминговый сервис Netflix представил VOID — открытый фреймворк, предназначенный для удаления объектов из видео с сохранением физических взаимодействий, которые они создают, решая ограничения, присущие традиционным инструментам закрашивания и удаления объектов.
Исторически удаление объекта из сцены было простой задачей, но обеспечение реалистичного поведения окружения впоследствии представляло значительные трудности. Например, удаление человека, держащего гитару, оставляет инструмент неестественно подвешенным, а удаление ныряльщика из бассейна может оставить воду неподвижной. Команды визуальных эффектов традиционно исправляли такие проблемы вручную — трудоемкий процесс, который может растянуться от дней до недель для одной сцены.
VOID, сокращение от Video Object and Interaction Deletion, предназначен для решения этих сложностей. В отличие от традиционных методов, которые просто заполняют отсутствующие пиксели, система прогнозирует физически согласованные результаты для сцены после удаления объекта.
Для этого используется комбинация технологий. Gemini от Google анализирует сцену, чтобы определить области, которые будут затронуты удалением, в то время как SAM2 от Meta сегментирует объекты для удаления. Эти выходные данные кодируются в квадмаску — карту с четырьмя значениями, указывающую, какие области стереть, какие перекрываются, какие физически затронуты, а какие остаются нетронутыми. Модель видеодиффузии, построенная на базе CogVideoX от Alibaba, затем реконструирует сцену физически правдоподобным образом. Необязательный второй проход применяет оптический поток для исправления любых искажений от первоначальной реконструкции.
Демонстрации VOID показывают впечатляющие результаты: воздушные шары естественно поднимаются, когда держатель удален, блоки сохраняют стабильность, когда несвязанные блоки удалены, и поверхность бассейна остается незатронутой после удаления человека. В исследовании предпочтений с участием 25 человек VOID был выбран в 64,8 процента случаев, превзойдя Runway — ведущую коммерческую альтернативу, которая достигла лишь 18,4 процента.
Этот релиз знаменует собой первый публично доступный AI-инструмент Netflix Research. Лицензированный под Apache 2.0, VOID может использоваться в коммерческих целях и размещен на Hugging Face. Аппаратные требования в настоящее время ограничивают доступ — для запуска модели требуется GPU с 40 ГБ VRAM, но будущие оптимизации и снижение инфраструктурных затрат могут расширить доступность. VOID представляет собой сдвиг в технологии видеопроизводства, переходя от простых инструментов стирания к системам, способным понимать и реалистично реконструировать сцены — разработка со значительными последствиями для профессиональных рабочих процессов.
Пост Netflix представляет VOID: открытый фреймворк для физически согласованного удаления объектов из видео впервые появился на Metaverse Post.


