VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約

ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケーションに至るまで、デジタル メディアの基礎です。
しかし、以前の方法では、グローバルとローカルの両方のコンテキストを包括的に理解する必要性が見落とされることが多く、特に長いビデオの場合、時空間次元で不正確で一貫性のない編集が行われてしまいます。
このペーパーでは、グローバルおよびローカルのビデオ編集のための統合時空間ビデオ アダプテーション フレームワークである VIA を紹介し、1 分間のビデオを一貫して編集する限界を押し広げます。
まず、個々のフレーム内のローカルな一貫性を確保するために、潜在的な編集方向とテキスト命令の間の一貫性を向上させるために事前トレーニングされた画像編集モデルを適応させるテスト時の編集適応を設計し、正確なローカル制御のためにマスクされた潜在変数を適応させます。
さらに、ビデオシーケンス全体にわたるグローバルな一貫性を維持するために、キーフレーム内の一貫した注意変数を再帰的に収集し、それらをシーケンス全体に戦略的に適用して編集効果を実現する時空間適応を導入します。
広範な実験により、ベースライン手法と比較して、VIA アプローチはソースビデオにより忠実であり、時空間コンテキストにおいてより一貫性があり、ローカル制御においてより正確な編集が生成されることが実証されています。
さらに重要なのは、VIA が一貫した長時間ビデオ編集を数分で実現できることを示し、長いビデオ シーケンスにわたる高度なビデオ編集タスクの可能性を解き放ちます。

要約(オリジナル)

Video editing is a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistent edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal Video Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, we designed test-time editing adaptation to adapt a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapt masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that recursively gather consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potential for advanced video editing tasks over long video sequences.

arxiv情報

著者 Jing Gu,Yuwei Fang,Ivan Skorokhodov,Peter Wonka,Xinya Du,Sergey Tulyakov,Xin Eric Wang
発行日 2024-10-15 17:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク