要約
大量の画像コレクションでトレーニングされた画像拡散モデルは、品質と多様性の点で最も用途の広い画像生成モデルとして浮上しています。
これらは、実際の画像の反転と条件付き (テキストなど) 生成をサポートしているため、高品質の画像編集アプリケーションにとって魅力的です。
このような事前トレーニング済みの画像モデルをテキストガイド付きのビデオ編集に使用する方法を調査します。
重要な課題は、ソース ビデオのコンテンツを維持しながら目的の編集を達成することです。
私たちの方法は、2 つの簡単な手順で機能します。まず、事前にトレーニングされた構造ガイド付き (深さなど) の画像拡散モデルを使用して、アンカー フレームでテキストガイド付き編集を実行します。
次に、重要なステップで、拡散モデルのコアノイズ除去ステップを適応させるために、セルフアテンション機能注入を介して変更を将来のフレームに徐々に伝播します。
次に、プロセスを続行する前に、フレームの潜在コードを調整して変更を統合します。
私たちのアプローチはトレーニング不要で、幅広い編集に一般化されています。
大規模な実験によってアプローチの有効性を実証し、それを 4 つの異なる以前の並行した取り組み (ArXiv で) と比較します。
計算集約的な前処理やビデオ固有の微調整なしで、現実的なテキストガイド付きビデオ編集が可能であることを示します。
要約(オリジナル)
Image diffusion models, trained on massive image collections, have emerged as the most versatile image generator model in terms of quality and diversity. They support inverting real images and conditional (e.g., text) generation, making them attractive for high-quality image editing applications. We investigate how to use such pre-trained image models for text-guided video editing. The critical challenge is to achieve the target edits while still preserving the content of the source video. Our method works in two simple steps: first, we use a pre-trained structure-guided (e.g., depth) image diffusion model to perform text-guided edits on an anchor frame; then, in the key step, we progressively propagate the changes to the future frames via self-attention feature injection to adapt the core denoising step of the diffusion model. We then consolidate the changes by adjusting the latent code for the frame before continuing the process. Our approach is training-free and generalizes to a wide range of edits. We demonstrate the effectiveness of the approach by extensive experimentation and compare it against four different prior and parallel efforts (on ArXiv). We demonstrate that realistic text-guided video edits are possible, without any compute-intensive preprocessing or video-specific finetuning.
arxiv情報
著者 | Duygu Ceylan,Chun-Hao Paul Huang,Niloy J. Mitra |
発行日 | 2023-03-22 16:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google