Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

要約

大規模なテキストから画像への拡散モデルは、画像の生成と編集において前例のない成功を収めています。
ただし、このような成功をビデオ編集に拡張する方法は不明です。
最近のビデオ編集の初期の試みでは、テキストからビデオへの大量のデータとトレーニング用の計算リソースが必要であり、多くの場合アクセスできません。
この作業では、ゼロショットビデオ編集のためのシンプルで効果的な方法である vid2vid-zero を提案します。
当社の vid2vid-zero は、既製の画像拡散モデルを活用しており、ビデオのトレーニングは必要ありません。
私たちの方法の核となるのは、テキストからビデオへの配置のためのヌルテキスト反転モジュール、時間的一貫性のためのクロスフレームモデリングモジュール、および元のビデオへの忠実度のための空間正則化モジュールです。
トレーニングなしで、アテンション メカニズムの動的な性質を利用して、テスト時に双方向の時間モデリングを有効にします。
実験と分析により、実世界のビデオで属性、被写体、場所などを編集する際に有望な結果が示されています。
コードは、\url{https://github.com/baaivision/vid2vid-zero} で入手できるようになります。

要約(オリジナル)

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn’t require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code will be made available at \url{https://github.com/baaivision/vid2vid-zero}.

arxiv情報

著者 Wen Wang,Kangyang Xie,Zide Liu,Hao Chen,Yue Cao,Xinlong Wang,Chunhua Shen
発行日 2023-03-30 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク