要約
ビデオ拡散変圧器の細かく効率的な制御可能性は、適用可能性に対する増大する欲求を高めました。
最近、コンテキスト内の条件付けは、統一された条件付きビデオ生成の強力なパラダイムとして登場しました。これにより、さまざまなコンテキストコンディショニングシグナルと長い統一トークンシーケンスへのさまざまなコンテキストコンディショニングシグナルを連結し、フルルディットなどを介して完全に処理することにより、多様なコントロールが可能になります。
それらの有効性にもかかわらず、これらの方法は、タスクの複雑さが増加するにつれて二次計算のオーバーヘッドに直面し、実際の展開を妨げます。
この論文では、元のコンテキストコンディショニングビデオ生成フレームワークで無視された効率ボトルネックを研究します。
体系的な分析から始めて、計算の非効率性の2つの重要なソースを特定します。コンテキスト条件のトークン内の固有の冗長性と、拡散プロセス全体でのコンテキストを含む相互作用における計算冗長性です。
これらの洞察に基づいて、2つの重要な観点から革新するビデオ生成と編集タスクの両方で、一般的な制御性の効率的なコンテキスト内調整フレームワークであるFulldit2を提案します。
第一に、トークンの冗長性に対処するために、Fulldit2は動的なトークン選択メカニズムを活用して、重要なコンテキストトークンを適応的に識別し、統一されたフルアテナンスのシーケンス長を削減します。
さらに、条件トークンとビデオ潜伏物間の冗長性の相互作用を最小限に抑えるために、選択的コンテキストキャッシュメカニズムが考案されています。
6つの多様な条件付きビデオ編集および生成タスクに関する広範な実験は、Fulldit2が拡散ステップあたりの平均時間コストで大幅な計算削減と2〜3倍のスピードアップを達成することを示しています。
プロジェクトページは\ href {https://fulldit2.github.io/} {https://fulldit2.github.io/}です。
要約(オリジナル)
Fine-grained and efficient controllability on video diffusion transformers has raised increasing desires for the applicability. Recently, In-context Conditioning emerged as a powerful paradigm for unified conditional video generation, which enables diverse controls by concatenating varying context conditioning signals with noisy video latents into a long unified token sequence and jointly processing them via full-attention, e.g., FullDiT. Despite their effectiveness, these methods face quadratic computation overhead as task complexity increases, hindering practical deployment. In this paper, we study the efficiency bottleneck neglected in original in-context conditioning video generation framework. We begin with systematic analysis to identify two key sources of the computation inefficiencies: the inherent redundancy within context condition tokens and the computational redundancy in context-latent interactions throughout the diffusion process. Based on these insights, we propose FullDiT2, an efficient in-context conditioning framework for general controllability in both video generation and editing tasks, which innovates from two key perspectives. Firstly, to address the token redundancy, FullDiT2 leverages a dynamic token selection mechanism to adaptively identify important context tokens, reducing the sequence length for unified full-attention. Additionally, a selective context caching mechanism is devised to minimize redundant interactions between condition tokens and video latents. Extensive experiments on six diverse conditional video editing and generation tasks demonstrate that FullDiT2 achieves significant computation reduction and 2-3 times speedup in averaged time cost per diffusion step, with minimal degradation or even higher performance in video generation quality. The project page is at \href{https://fulldit2.github.io/}{https://fulldit2.github.io/}.
arxiv情報
著者 | Xuanhua He,Quande Liu,Zixuan Ye,Weicai Ye,Qiulin Wang,Xintao Wang,Qifeng Chen,Pengfei Wan,Di Zhang,Kun Gai |
発行日 | 2025-06-05 03:35:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google