V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

要約

このペーパーでは、v $^2 $ editを紹介します。これは、指導ガイド付きビデオと3Dシーン編集のための新しいトレーニングフリーフレームワークです。
元のコンテンツの保存と編集タスクの履行のバランスをとるという重要な課題に対処すると、私たちのアプローチは、複雑な編集タスクを単純なサブタスクのシーケンスに分解する進歩的な戦略を採用しています。
各サブタスクは、3つの重要な相乗メカニズムを介して制御されます。初期ノイズ、各除去ステップで追加されたノイズ、およびテキストプロンプトとビデオコンテンツの間の交差マップです。
これにより、目的の編集を効果的に適用しながら、元のビデオ要素を堅牢に保存します。
ネイティブビデオ編集機能を超えて、v $^2 $編集は、「Render-Edit-Reconstruct」プロセスを介して3Dシーンの編集に拡張され、オブジェクト挿入などの大幅な幾何学的変化を含むタスクでも高品質の3D無意味の編集を可能にします。
広範な実験は、V $^2 $編集が、さまざまな挑戦的なビデオ編集タスクと複雑な3Dシーン編集タスクにわたって高品質で成功した編集を実現し、それによって両方のドメインで最先端のパフォーマンスを確立することを示しています。

要約(オリジナル)

This paper introduces V$^2$Edit, a novel training-free framework for instruction-guided video and 3D scene editing. Addressing the critical challenge of balancing original content preservation with editing task fulfillment, our approach employs a progressive strategy that decomposes complex editing tasks into a sequence of simpler subtasks. Each subtask is controlled through three key synergistic mechanisms: the initial noise, noise added at each denoising step, and cross-attention maps between text prompts and video content. This ensures robust preservation of original video elements while effectively applying the desired edits. Beyond its native video editing capability, we extend V$^2$Edit to 3D scene editing via a ‘render-edit-reconstruct’ process, enabling high-quality, 3D-consistent edits even for tasks involving substantial geometric changes such as object insertion. Extensive experiments demonstrate that our V$^2$Edit achieves high-quality and successful edits across various challenging video editing tasks and complex 3D scene editing tasks, thereby establishing state-of-the-art performance in both domains.

arxiv情報

著者 Yanming Zhang,Jun-Kun Chen,Jipeng Lyu,Yu-Xiong Wang
発行日 2025-03-13 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク