Serviciul global de streaming Netflix a introdus VOID, un framework open-source conceput pentru a elimina obiecte din video, păstrând în același timp interacțiunile fizice pe care acestea le creează, abordând limitările observate în instrumentele tradiționale de inpainting și ștergere a obiectelor.
Istoric, eliminarea unui obiect dintr-o scenă a fost simplă, dar asigurarea unui comportament realist al mediului după aceea a reprezentat provocări semnificative. De exemplu, ștergerea unei persoane care ține o chitară lasă instrumentul suspendat în mod nefiresc, iar eliminarea unui scafandru dintr-o piscină poate lăsa apa nemișcată. Echipele de efecte vizuale au corectat tradițional astfel de probleme manual, un proces consumator de timp care poate dura de la zile până la săptămâni pentru o singură scenă.
VOID, prescurtare pentru Video Object and Interaction Deletion, este destinat să rezolve aceste complicații. Spre deosebire de metodele convenționale care doar completează pixelii lipsă, sistemul prezice rezultate fizic consistente pentru scenă odată ce obiectul este eliminat.
Acesta valorifică o combinație de tehnologii pentru a realiza acest lucru. Gemini de la Google analizează scena pentru a identifica zonele care vor fi afectate de ștergere, în timp ce SAM2 de la Meta segmentează obiectele care urmează să fie eliminate. Aceste rezultate sunt codificate într-un quadmask, o hartă cu patru valori care indică ce zone trebuie șterse, care se suprapun, care sunt afectate fizic și care rămân neatinse. Un model de difuzie video construit pe CogVideoX de la Alibaba reconstruiește apoi scena într-o manieră fizic plauzibilă. O a doua trecere opțională aplică flux optic pentru a corecta orice distorsiuni din reconstrucția inițială.
Demonstrațiile VOID arată rezultate convingătoare: baloanele urcă în mod natural când un suport este eliminat, blocurile își mențin stabilitatea când blocuri fără legătură sunt șterse, iar suprafețele piscinei rămân neafectate după ce o persoană este ștearsă. Într-un studiu de preferință umană cu 25 de participanți, VOID a fost preferat în 64,8 la sută din cazuri, depășind Runway, o alternativă comercială de top, care a obținut doar 18,4 la sută.
Această lansare marchează primul instrument AI disponibil public al Netflix Research. Licențiat sub Apache 2.0, VOID poate fi utilizat comercial și este găzduit pe Hugging Face. Cerințele hardware limitează în prezent accesul, fiind necesar un GPU cu 40GB VRAM pentru a rula modelul, dar optimizările viitoare și costurile reduse ale infrastructurii pot extinde disponibilitatea. VOID reprezintă o schimbare în tehnologia de producție video, trecând de la instrumente simple de ștergere către sisteme capabile să înțeleagă și să reconstruiască realist scenele, o dezvoltare cu implicații semnificative pentru fluxurile de lucru profesionale.
Postarea Netflix Unveils VOID: Open-Source Framework For Physically Consistent Video Object Removal a apărut pentru prima dată pe Metaverse Post.


