要約
テキストからビデオ (TTV) への変換モデルが最近目覚ましい成功を収めたという事実にもかかわらず、TTV をビデオ編集に拡張するためのアプローチはほとんどありませんでした。
拡散ベースのテキストから画像 (TTI) モデルに適応する TTV モデルのアプローチに動機付けられて、事前トレーニング済みの TTI モデルと単一の
ビデオ。
フレームワークは次の 2 つの段階で構成されます。(1) 時間モジュールを追加し、ソース ビデオを調整することにより、2D モデルを 3D モデルに膨らませます。(2) ソース ビデオをノイズに反転し、ターゲット テキスト プロンプトとアテンション マップ インジェクションを使用して編集します。
各段階で、ソース ビデオのセマンティック属性の一時的なモデリングと保存が可能になります。
ビデオ編集の主な課題の 1 つに、背景の不一致の問題があります。編集に含まれていない領域が、望ましくない一貫性のない一時的な変更に悩まされています。
この問題を軽減するために、疎-因果ブレンディング (SC ブレンディング) と呼ばれる新しいマスク ブレンディング方法も導入します。
編集が適用された領域が滑らかな遷移を示し、未編集領域の時空間的一貫性も達成するように、時間的一貫性を反映するように以前のマスクブレンド方法を改善します。
さまざまな種類のテキストとビデオに関する広範な実験結果を提示し、背景の一貫性、テキストの配置、およびビデオ編集の品質に関して、ベースラインと比較して提案された方法の優位性を示します。
要約(オリジナル)
Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single
arxiv情報
著者 | Chaehun Shin,Heeseung Kim,Che Hyun Lee,Sang-gil Lee,Sungroh Yoon |
発行日 | 2023-03-14 14:35:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google