سرویس استریم جهانی نتفلیکس، VOID را معرفی کرده است، یک چارچوب متنباز که برای حذف اشیا از ویدیو طراحی شده است در حالی که تعاملات فیزیکی که آنها ایجاد میکنند را حفظ میکند، و محدودیتهای موجود در ابزارهای سنتی inpainting و پاککننده اشیا را برطرف میکند.
از نظر تاریخی، حذف یک شی از یک صحنه ساده بوده است، اما اطمینان از رفتار واقعگرایانه محیط پس از آن چالشهای قابل توجهی را ایجاد کرده است. به عنوان مثال، حذف شخصی که گیتار نگه داشته است، ساز را به طور غیرطبیعی معلق باقی میگذارد، و حذف یک غواص از استخر میتواند آب را بدون حرکت باقی بگذارد. تیمهای جلوههای بصری به طور سنتی چنین مشکلاتی را به صورت دستی اصلاح کردهاند، فرآیندی زمانبر که میتواند از چند روز تا چند هفته برای یک صحنه واحد طول بکشد.
VOID، مخفف Video Object and Interaction Deletion، برای حل این پیچیدگیها در نظر گرفته شده است. برخلاف روشهای متعارف که صرفاً پیکسلهای از دست رفته را پر میکنند، این سیستم نتایج ثابت فیزیکی را برای صحنه پیشبینی میکند پس از اینکه شی حذف شود.
از ترکیبی از فناوریها برای دستیابی به این هدف استفاده میکند. Gemini گوگل صحنه را تجزیه و تحلیل میکند تا مناطقی را که تحت تأثیر حذف قرار میگیرند شناسایی کند، در حالی که SAM2 متا اشیایی را که باید حذف شوند تقسیمبندی میکند. این خروجیها در یک quadmask کدگذاری میشوند، یک نقشه چهار مقداری که نشان میدهد کدام مناطق باید پاک شوند، کدامها همپوشانی دارند، کدامها از نظر فیزیکی تحت تأثیر قرار میگیرند و کدامها دست نخورده باقی میمانند. یک مدل انتشار ویدیویی ساخته شده بر اساس CogVideoX علیبابا سپس صحنه را به شیوهای قابل قبول از نظر فیزیکی بازسازی میکند. یک مرحله دوم اختیاری جریان نوری را برای اصلاح هرگونه اعوجاج ناشی از بازسازی اولیه اعمال میکند.
نمایشهای VOID نتایج قانعکنندهای را نشان میدهند: بادکنکها به طور طبیعی بالا میروند وقتی نگهدارنده حذف میشود، بلوکها ثبات خود را حفظ میکنند وقتی بلوکهای نامربوط حذف میشوند، و سطح استخر پس از پاک شدن یک شخص تحت تأثیر قرار نمیگیرد. در یک مطالعه ترجیح انسانی با 25 شرکتکننده، VOID 64.8 درصد از زمان ترجیح داده شد و از Runway، یک جایگزین تجاری پیشرو که تنها 18.4 درصد به دست آورد، بهتر عمل کرد.
این انتشار اولین ابزار هوش مصنوعی در دسترس عموم Netflix Research را مشخص میکند. VOID که تحت مجوز Apache 2.0 ارائه شده، میتواند به صورت تجاری استفاده شود و در Hugging Face میزبانی میشود. نیازهای سختافزاری در حال حاضر دسترسی را محدود میکنند، با یک GPU با 40GB VRAM که برای اجرای مدل مورد نیاز است، اما بهینهسازیهای آینده و کاهش هزینههای زیرساخت ممکن است دسترسی را گسترش دهد. VOID نشاندهنده یک تغییر در فناوری تولید ویدیو است، از ابزارهای پاککننده ساده به سمت سیستمهایی که قادر به درک و بازسازی واقعگرایانه صحنهها هستند، پیشرفتی با پیامدهای قابل توجه برای گردشهای کاری حرفهای.
پست Netflix VOID را رونمایی میکند: چارچوب متنباز برای حذف اشیای ویدیویی با ثبات فیزیکی ابتدا در Metaverse Post ظاهر شد.


