บริการสตริีมมิ่งระดับโลกอย่าง Netflix ได้เปิดตัว VOID เฟรมเวิร์กโอเพนซอร์สที่ออกแบบมาเพื่อลบวัตถุออกจากวิดีโอพร้อมทั้งรักษาปฏิสัมพันธ์ทางกายภาพที่วัตถุเหล่านั้นสร้างขึ้น เพื่อแก้ไขข้อจำกัดที่พบในเครื่องมือ inpainting และเครื่องมือลบวัตถุแบบดั้งเดิม
ในอดีต การลบวัตถุออกจากฉากถือเป็นเรื่องที่ทำได้ง่าย แต่การทำให้สิ่งแวดล้อมมีพฤติกรรมที่สมจริงหลังจากนั้นเป็นความท้าทายที่สำคัญ ตัวอย่างเช่น การลบคนที่ถือกีตาร์จะทำให้เครื่องดนตรีลอยอยู่ในอากาศอย่างไม่เป็นธรรมชาติ และการลบนักดำน้ำออกจากสระว่ายน้ำอาจทำให้น้ำไม่มีการเคลื่อนไหว ทีมเอฟเฟกต์พิเศษมักจะแก้ไขปัญหาเหล่านี้ด้วยตนเองตามแบบดั้งเดิม ซึ่งเป็นกระบวนการที่ใช้เวลานานและอาจใช้เวลาตั้งแต่หลายวันไปจนถึงหลายสัปดาห์สำหรับฉากเดียว
VOID ซึ่งย่อมาจาก Video Object and Interaction Deletion มีวัตถุประสงค์เพื่อแก้ไขความซับซ้อนเหล่านี้ ต่างจากวิธีการทั่วไปที่เพียงแค่เติมพิกเซลที่หายไป ระบบนี้จะทำนายผลลัพธ์ที่สอดคล้องกับกฎฟิสิกส์สำหรับฉากหลังจากวัตถุถูกลบออกไป
ระบบนี้ใช้ประโยชน์จากการผสมผสานเทคโนโลยีต่างๆ เพื่อบรรลุเป้าหมายนี้ Gemini ของ Google วิเคราะห์ฉากเพื่อระบุพื้นที่ที่จะได้รับผลกระทบจากการลบ ในขณะที่ SAM2 ของ Meta แบ่งส่วนวัตถุที่จะถูกลบออก ผลลัพธ์เหล่านี้ถูกเข้ารหัสเป็น quadmask ซึ่งเป็นแผนที่สี่ค่าที่บอกว่าพื้นที่ใดควรลบ พื้นที่ใดทับซ้อนกัน พื้นที่ใดได้รับผลกระทบทางกายภาพ และพื้นที่ใดไม่ได้รับผลกระทบ จากนั้นโมเดลวิดีโอดิฟฟิวชันที่สร้างจาก CogVideoX ของ Alibaba จะสร้างฉากใหม่ในลักษณะที่สมเหตุสมผลทางกายภาพ การผ่านรอบที่สองที่เป็นตัวเลือกจะใช้ optical flow เพื่อแก้ไขการบิดเบือนใดๆ จากการสร้างใหม่ครั้งแรก
การสาธิต VOID แสดงผลลัพธ์ที่น่าสนใจ: ลูกโป่งลอยขึ้นอย่างเป็นธรรมชาติเมื่อผู้ถูกลบออก บลอกคงความมั่นคงเมื่อบลอกที่ไม่เกี่ยวข้องถูกลบออก และพื้นผิวสระว่ายน้ำยังคงไม่ได้รับผลกระทบหลังจากคนถูกลบออก ในการศึกษาความชอบของมนุษย์ที่มีผู้เข้าร่วม 25 คน VOID ได้รับความนิยมร้อยละ 64.8 ของเวลา เหนือกว่า Runway ทางเลือกเชิงพาณิชย์ชั้นนำ ซึ่งได้เพียงร้อยละ 18.4
การเปิดตัวครั้งนี้เป็นเครื่องมือ AI ที่เปิดให้ใช้งานสาธารณะเป็นครั้งแรกของ Netflix Research ได้รับใบอนุญาตภายใต้ Apache 2.0 VOID สามารถใช้งานในเชิงพาณิชย์ได้และถูกโฮสต์บน Hugging Face ข้อกำหนดฮาร์ดแวร์ในปัจจุบันจำกัดการเข้าถึง โดยต้องการ GPU VRAM 40GB เพื่อเรียกใช้โมเดล แต่การเพิ่มประสิทธิภาพในอนาคตและต้นทุนโครงสร้างพื้นฐานที่ลดลงอาจขยายความพร้อมใช้งานได้ VOID แสดงถึงการเปลี่ยนแปลงในเทคโนโลยีการผลิตวิดีโอ โดยเปลี่ยนจากเครื่องมือลบอย่างง่ายไปสู่ระบบที่สามารถเข้าใจและสร้างฉากใหม่อย่างสมจริง ซึ่งเป็นการพัฒนาที่มีผลกระทบสำคัญต่อขั้นตอนการทำงานระดับมืออาชีพ
โพสต์ Netflix เปิดตัว VOID: เฟรมเวิร์กโอเพนซอร์สสำหรับการลบวัตถุในวิดีโอที่สอดคล้องกับกฎฟิสิกส์ ปรากฏครั้งแรกบน Metaverse Post


