要約
テキストからビデオへの生成における最近の進歩は、生成的なビデオ編集タスクへの関心を呼び起こした。これまでの手法では、タスクに特化したアーキテクチャ(アダプタモジュールの追加など)や専用のカスタマイズ(DDIMの反転など)に依存することが多く、汎用的な編集条件の統合や様々な編集タスクの統一が制限されていた。本論文では、UNIC(UNified In-Context Video Editing)を紹介する。UNICは、多様なビデオ編集タスクをインコンテキスト方式で単一のモデル内に統合する、シンプルかつ効果的なフレームワークである。この統一を達成するために、我々は様々なビデオ編集タスクの入力を3種類のトークンとして表現する:ソースビデオトークン、ノイズビデオ潜在トークン、そして特定の編集タスクに応じて変化するマルチモーダル条件付けトークンである。この定式化に基づいて、我々の重要な洞察は、これらの3つのタイプを単一の連続したトークン列に統合し、DiTのネイティブな注意操作を使用してそれらを共同でモデル化することで、タスク固有のアダプタ設計を不要にすることである。とはいえ、このフレームワークの下での直接的なタスクの統一は困難であり、トークンの衝突や、タスク間の様々なビデオ長や多様な条件モダリティによるタスクの混乱を引き起こす。これらに対処するため、我々は、一貫した時間的位置エンコーディングを促進するタスク認識RoPEと、モデルが異なる編集タスクを明確に区別できるようにする条件バイアスを導入する。これにより、本アプローチは、ソースビデオと様々な条件トークンを「文脈の中で」参照することで、異なるビデオ編集タスクを適応的に実行し、柔軟なタスク構成をサポートする。本手法を検証するために、6つの代表的なビデオ編集タスクを含む統一的なビデオ編集ベンチマークを構築する。その結果、我々の統一的アプローチは各タスクにおいて優れた性能を達成し、創発的なタスク構成能力を示すことが実証された。
要約(オリジナル)
Recent advances in text-to-video generation have sparked interest in generative video editing tasks. Previous methods often rely on task-specific architectures (e.g., additional adapter modules) or dedicated customizations (e.g., DDIM inversion), which limit the integration of versatile editing conditions and the unification of various editing tasks. In this paper, we introduce UNified In-Context Video Editing (UNIC), a simple yet effective framework that unifies diverse video editing tasks within a single model in an in-context manner. To achieve this unification, we represent the inputs of various video editing tasks as three types of tokens: the source video tokens, the noisy video latent, and the multi-modal conditioning tokens that vary according to the specific editing task. Based on this formulation, our key insight is to integrate these three types into a single consecutive token sequence and jointly model them using the native attention operations of DiT, thereby eliminating the need for task-specific adapter designs. Nevertheless, direct task unification under this framework is challenging, leading to severe token collisions and task confusion due to the varying video lengths and diverse condition modalities across tasks. To address these, we introduce task-aware RoPE to facilitate consistent temporal positional encoding, and condition bias that enables the model to clearly differentiate different editing tasks. This allows our approach to adaptively perform different video editing tasks by referring the source video and varying condition tokens ‘in context’, and support flexible task composition. To validate our method, we construct a unified video editing benchmark containing six representative video editing tasks. Results demonstrate that our unified approach achieves superior performance on each task and exhibits emergent task composition abilities.
arxiv情報
著者 | Zixuan Ye,Xuanhua He,Quande Liu,Qiulin Wang,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Qifeng Chen,Wenhan Luo |
発行日 | 2025-06-04 17:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |