Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

要約

タイトル:市販の画像拡散モデルを使用した非学習型ビデオ編集
要約:

– 大規模なテキストから画像への拡散モデルは、画像生成と編集において前例のない成功を収めています。
– しかし、その成功をビデオ編集に拡張する方法は不明です。
– 最近の初期のビデオ編集試みは、多くのテキストからビデオへのデータや計算リソースを必要とするため、しばしば利用できません。
– 弊社の提案する vid2vid-zero は、市販の画像拡散モデルを活用した単純ながら効果的な非学習型ビデオ編集手法です。
– vid2vid-zero は、テキストから動画へのアライメントのためのゼロテキスト反転モジュール、時間的一貫性のためのクロスフレームモデリングモジュール、元のビデオに対する信頼性のための空間正則化モジュールがコアとなっています。
– 学習なしで、注意機構の動的性を活用して両方向の時間モデリングをテスト時に可能にします。
– 実験と分析は、現実のビデオに対する属性、主題、場所などの編集において、有望な結果を示しています。
– コードは、\url{https://github.com/baaivision/vid2vid-zero} で公開されています。

要約(オリジナル)

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn’t require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code is made available at \url{https://github.com/baaivision/vid2vid-zero}.

arxiv情報

著者 Wen Wang,Kangyang Xie,Zide Liu,Hao Chen,Yue Cao,Xinlong Wang,Chunhua Shen
発行日 2023-04-13 07:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク