VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約

ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケーションに至るまで、デジタル メディアの基礎として機能します。
しかし、以前の方法では、グローバルとローカルの両方のコンテキストを包括的に理解する必要性が見落とされることが多く、特に長いビデオの場合、時空間次元で不正確で一貫性のない編集が発生します。
このペーパーでは、グローバルおよびローカルのビデオ編集のための統合時空間 VIdeo Adaptation フレームワークである VIA を紹介し、1 分間のビデオを一貫して編集する限界を押し広げます。
まず、個々のフレーム内の局所的な一貫性を確保するために、VIA の基礎となるのは新しいテスト時編集適応方法です。これは、潜在的な編集方向とテキスト命令の間の一貫性を向上させるために事前トレーニングされた画像編集モデルを適応させ、マスクされた潜在変数を適応させます。
正確なローカルコントロールを実現します。
さらに、ビデオシーケンス全体にわたるグローバルな一貫性を維持するために、キーフレーム内の一貫した注意変数を適応させ、それらをシーケンス全体に戦略的に適用して編集効果を実現する時空間適応を導入します。
広範な実験により、ベースライン手法と比較して、VIA アプローチはソースビデオにより忠実であり、時空間コンテキストにおいてより一貫性があり、ローカル制御においてより正確な編集が生成されることが実証されています。
さらに重要なのは、VIA が一貫した長時間ビデオ編集を数分で実現できることを示し、長いビデオ シーケンスにわたる高度なビデオ編集タスクの可能性を解き放ちます。

要約(オリジナル)

Video editing stands as a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistency edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal VIdeo Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, the foundation of VIA is a novel test-time editing adaptation method, which adapts a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapts masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that adapts consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potentials for advanced video editing tasks over long video sequences.

arxiv情報

著者 Jing Gu,Yuwei Fang,Ivan Skorokhodov,Peter Wonka,Xinya Du,Sergey Tulyakov,Xin Eric Wang
発行日 2024-06-18 17:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク