StableVideo: Text-driven Consistency-aware Diffusion Video Editing

要約

拡散ベースの方法では、リアルな画像やビデオを生成できますが、ビデオ内の既存のオブジェクトの外観を長期間維持しながら編集するのは困難です。
これにより、拡散モデルを実際のシナリオでの自然なビデオ編集に適用することができなくなります。
この論文では、既存のテキスト駆動拡散モデルに時間依存性を導入することでこの問題に取り組み、これにより編集されたオブジェクトに対して一貫した外観を生成できるようになります。
具体的には、拡散ビデオ編集のための新しいフレーム間伝播メカニズムを開発します。これは、レイヤー表現の概念を利用して、あるフレームから次のフレームに外観情報を伝播します。
次に、このメカニズムに基づいて、一貫性を意識したビデオ編集を実現できるテキスト駆動型ビデオ編集フレームワーク、つまり StableVideo を構築します。
広範な実験により、私たちのアプローチの強力な編集機能が実証されました。
最先端のビデオ編集方法と比較して、私たちのアプローチは優れた定性的および定量的な結果を示します。
私たちのコードは \href{https://github.com/rese1f/StableVideo}{this https URL} で入手できます。

要約(オリジナル)

Diffusion-based methods can generate realistic images and videos, but they struggle to edit existing objects in a video while preserving their appearance over time. This prevents diffusion models from being applied to natural video editing in practical scenarios. In this paper, we tackle this problem by introducing temporal dependency to existing text-driven diffusion models, which allows them to generate consistent appearance for the edited objects. Specifically, we develop a novel inter-frame propagation mechanism for diffusion video editing, which leverages the concept of layered representations to propagate the appearance information from one frame to the next. We then build up a text-driven video editing framework based on this mechanism, namely StableVideo, which can achieve consistency-aware video editing. Extensive experiments demonstrate the strong editing capability of our approach. Compared with state-of-the-art video editing methods, our approach shows superior qualitative and quantitative results. Our code is available at \href{https://github.com/rese1f/StableVideo}{this https URL}.

arxiv情報

著者 Wenhao Chai,Xun Guo,Gaoang Wang,Yan Lu
発行日 2023-08-18 14:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク