Edit-A-Video: Single Video Editing with Object-Aware Consistency

要約

Text-to-Video (TTV) モデルが最近目覚ましい成功を収めているという事実にもかかわらず、TTV をビデオ編集に拡張するアプローチはほとんどありませんでした。
拡散ベースのテキストから画像への (TTI) モデルを適応させた TTV モデルのアプローチを動機として、事前トレーニングされた TTI モデルと単一の ペアのみを与えたビデオ編集フレームワーク (これを Edit-A- と呼ぶ) を提案します。
ビデオ。
このフレームワークは 2 つの段階で構成されます: (1) 時間モジュールを追加し、ソース ビデオを調整することで 2D モデルを 3D モデルにインフレートします (2) ソース ビデオをノイズに反転し、ターゲット テキスト プロンプトとアテンション マップ インジェクションを使用して編集します。
各ステージでは、ソース ビデオの時間的モデリングと意味論的属性の保存が可能になります。
ビデオ編集における重要な課題の 1 つに、背景の不一致の問題が含まれます。この問題では、編集に含まれていない領域に、望ましくない一貫性のない時間的変更が発生します。
この問題を軽減するために、スパース因果ブレンド (SC ブレンディング) と呼ばれる新しいマスク ブレンド方法も導入します。
時間的一貫性を反映するように以前のマスク ブレンディング方法を改良し、編集が適用された領域が滑らかな遷移を示すと同時に、未編集領域の時空間的一貫性も達成します。
さまざまな種類のテキストとビデオに関する広範な実験結果を示し、背景の一貫性、テキストの配置、およびビデオ編集品質の点で、ベースラインと比較して提案された方法の優位性を実証します。

要約(オリジナル)

Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality.

arxiv情報

著者 Chaehun Shin,Heeseung Kim,Che Hyun Lee,Sang-gil Lee,Sungroh Yoon
発行日 2023-11-17 12:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク