Le service de streaming mondial Netflix a présenté VOID, un framework open-source conçu pour supprimer des objets d'une vidéo tout en préservant les interactions physiques qu'ils créent, répondant aux limites observées dans les outils traditionnels d'inpainting et d'effacement d'objets.
Historiquement, la suppression d'un objet d'une scène a été simple, mais garantir que l'environnement se comporte de manière réaliste par la suite a posé des défis importants. Par exemple, supprimer une personne tenant une guitare laisse l'instrument suspendu de manière non naturelle, et retirer un plongeur d'une piscine peut laisser l'eau immobile. Les équipes d'effets visuels ont traditionnellement corrigé ces problèmes manuellement, un processus chronophage qui peut s'étendre de quelques jours à plusieurs semaines pour une seule scène.
VOID, abréviation de Video Object and Interaction Deletion, vise à résoudre ces complications. Contrairement aux méthodes conventionnelles qui se contentent de remplir les pixels manquants, le système prédit des résultats physiquement cohérents pour la scène une fois l'objet supprimé.
Il exploite une combinaison de technologies pour y parvenir. Gemini de Google analyse la scène pour identifier les zones qui seront affectées par la suppression, tandis que SAM2 de Meta segmente les objets à supprimer. Ces résultats sont codés dans un quadmask, une carte à quatre valeurs indiquant quelles zones effacer, lesquelles se chevauchent, lesquelles sont physiquement impactées et lesquelles restent intactes. Un modèle de diffusion vidéo construit sur CogVideoX d'Alibaba reconstruit ensuite la scène de manière physiquement plausible. Une deuxième passe optionnelle applique un flux optique pour corriger toute distorsion de la reconstruction initiale.
Les démonstrations de VOID montrent des résultats convaincants : les ballons s'élèvent naturellement lorsqu'un porteur est retiré, les blocs maintiennent leur stabilité lorsque des blocs non liés sont supprimés, et les surfaces de piscine restent non affectées après l'effacement d'une personne. Dans une étude de préférence humaine avec 25 participants, VOID a été favorisé 64,8 % du temps, surpassant Runway, une alternative commerciale leader, qui n'a obtenu que 18,4 %.
Cette version marque le premier outil IA accessible au public de Netflix Research. Sous licence Apache 2.0, VOID peut être utilisé commercialement et est hébergé sur Hugging Face. Les exigences matérielles limitent actuellement l'accès, un GPU avec 40 Go de VRAM étant nécessaire pour exécuter le modèle, mais de futures optimisations et une réduction des coûts d'infrastructure pourraient élargir la disponibilité. VOID représente un changement dans la technologie de production vidéo, passant d'outils d'effacement simples vers des systèmes capables de comprendre et de reconstruire de manière réaliste les scènes, un développement aux implications importantes pour les flux de travail professionnels.
L'article Netflix dévoile VOID : framework open-source pour la suppression cohérente d'objets vidéo est apparu en premier sur Metaverse Post.


