VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約

ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリケーションにまたがるデジタルメディアの基本的な柱として機能します。
ただし、以前の方法は、グローバルおよびローカルの両方のコンテキストを包括的に理解する必要性を見落としていることが多く、特に長いビデオでは、時空の側面の不正確で一貫性のない編集につながります。
このペーパーでは、グローバルおよびローカルビデオ編集のための統一された空間的ビデオ適応フレームワークを紹介し、一貫して微妙なビデオを編集することの制限を推進します。
まず、個々のフレーム内の局所的な一貫性を確保するために、テスト時間編集の適応を設計して、潜在的な編集方向とテキスト命令の一貫性を改善するための事前に訓練された画像編集モデルを適応させ、正確なローカル制御のためにマスクされた潜在変数を適応させます。
さらに、ビデオシーケンスに対するグローバルな一貫性を維持するために、キーフレーム内の一貫した注意変数を再帰的に収集し、シーケンス全体に戦略的に適用して編集効果を実現する空間的適応を導入します。
広範な実験は、ベースラインの方法と比較して、私たちのVIAアプローチは、ソースビデオにより忠実であり、時空の文脈でより首尾一貫した、そしてローカル制御がより正確な編集を生成することを示しています。
さらに重要なことは、VIAが数分で一貫した長いビデオ編集を実現し、長いビデオシーケンスにわたる高度なビデオ編集タスクの可能性を解き放つことができることを示しています。

要約(オリジナル)

Video editing serves as a fundamental pillar of digital media, spanning applications in entertainment, education, and professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistent edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal Video Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, we designed test-time editing adaptation to adapt a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapts masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that recursively gather consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potential for advanced video editing tasks over long video sequences.

arxiv情報

著者 Jing Gu,Yuwei Fang,Ivan Skorokhodov,Peter Wonka,Xinya Du,Sergey Tulyakov,Xin Eric Wang
発行日 2025-03-27 17:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク