Blended Latent Diffusion under Attention Control for Real-World Video Editing

要約

完全に公開されているテキストからビデオへのモデルが不足しているため、現在のビデオ編集方法は、事前にトレーニングされたテキストから画像への生成モデルに基づいて構築される傾向がありますが、一時的なビデオのローカル編集を扱う際には依然として大きな課題に直面しています。
情報。
第一に、既存の方法は、事前定義されたマスクによるローカル領域の編集に焦点を当てようとしていますが、各フレームの空間全体の生成により、外側領域の背景の保存は理想的ではありません。
さらに、ユーザーが特別にマスクを提供することは追加のコストがかかる作業であるため、編集プロセスに統合された自律的なマスキング戦略が望ましいです。
最後に重要なことですが、画像レベルの事前トレーニング済みモデルは、動きやダイナミクスを表現するために不可欠なビデオのフレーム全体にわたる時間情報を学習していません。
この論文では、ローカルビデオ編集タスクを実行するために画像レベルのブレンドされた潜在拡散モデルを適応させることを提案します。
具体的には、DDIM 反転を利用して、ランダムにノイズが発生したものではなく背景潜在として潜在を取得し、入力ビデオの背景情報をより適切に保存します。
さらに、拡散ステップにおけるクロスアテンションマップから導出された自律的なマスク製造メカニズムを導入します。
最後に、U-Net のセルフ アテンション ブロックを時間空間ブロックに変換することで、ビデオ フレーム間の時間的一貫性を強化します。
広範な実験を通じて、私たちが提案したアプローチは、現実世界のさまざまなビデオ編集タスクでの有効性を実証しています。

要約(オリジナル)

Due to lack of fully publicly available text-to-video models, current video editing methods tend to build on pre-trained text-to-image generation models, however, they still face grand challenges in dealing with the local editing of video with temporal information. First, although existing methods attempt to focus on local area editing by a pre-defined mask, the preservation of the outside-area background is non-ideal due to the spatially entire generation of each frame. In addition, specially providing a mask by user is an additional costly undertaking, so an autonomous masking strategy integrated into the editing process is desirable. Last but not least, image-level pretrained model hasn’t learned temporal information across frames of a video which is vital for expressing the motion and dynamics. In this paper, we propose to adapt a image-level blended latent diffusion model to perform local video editing tasks. Specifically, we leverage DDIM inversion to acquire the latents as background latents instead of the randomly noised ones to better preserve the background information of the input video. We further introduce an autonomous mask manufacture mechanism derived from cross-attention maps in diffusion steps. Finally, we enhance the temporal consistency across video frames by transforming the self-attention blocks of U-Net into temporal-spatial blocks. Through extensive experiments, our proposed approach demonstrates effectiveness in different real-world video editing tasks.

arxiv情報

著者 Deyin Liu,Lin Yuanbo Wu,Xianghua Xie
発行日 2024-09-05 13:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク