要約
Text-to-Video (TTV) モデルが最近目覚ましい成功を収めているという事実にもかかわらず、TTV をビデオ編集に拡張するアプローチはほとんどありませんでした。
拡散ベースのテキストから画像への (TTI) モデルを適応させた TTV モデルのアプローチを動機として、事前トレーニングされた TTI モデルと単一の
ビデオ。
このフレームワークは 2 つの段階で構成されます: (1) 時間モジュールを追加し、ソース ビデオを調整することで 2D モデルを 3D モデルにインフレートします (2) ソース ビデオをノイズに反転し、ターゲット テキスト プロンプトとアテンション マップ インジェクションを使用して編集します。
各ステージでは、ソース ビデオの時間的モデリングと意味論的属性の保存が可能になります。
ビデオ編集における重要な課題の 1 つに、背景の不一致の問題が含まれます。この問題では、編集に含まれていない領域に、望ましくない一貫性のない時間的変更が発生します。
この問題を軽減するために、スパース因果ブレンド (SC ブレンディング) と呼ばれる新しいマスク ブレンド方法も導入します。
時間的一貫性を反映するように以前のマスク ブレンディング方法を改良し、編集が適用された領域が滑らかな遷移を示すと同時に、未編集領域の時空間的一貫性も達成します。
さまざまな種類のテキストとビデオに関する広範な実験結果を示し、背景の一貫性、テキストの配置、およびビデオ編集品質の点で、ベースラインと比較して提案された方法の優位性を実証します。
要約(オリジナル)
Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single
arxiv情報
著者 | Chaehun Shin,Heeseung Kim,Che Hyun Lee,Sang-gil Lee,Sungroh Yoon |
発行日 | 2023-11-17 12:43:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google