FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers

要約

ビデオ拡散変換器におけるきめ細かく効率的な制御可能性は、その適用性に対する要望を高めている。最近、In-context Conditioningが、統一された条件付きビデオ生成のための強力なパラダイムとして登場した。これは、様々なコンテキストコンディショニング信号をノイズの多いビデオ潜在情報と長い統一トークンシーケンスに連結し、FullDiTなどのフルアテンションを介してそれらを共同処理することにより、多様な制御を可能にする。その有効性にもかかわらず、これらの方法は、タスクの複雑さが増すにつれて二次的な計算オーバーヘッドに直面し、実用的な展開の妨げとなっている。本論文では、オリジナルのインコンテキストコンディショニングビデオ生成フレームワークで無視されている効率性のボトルネックを研究する。まず体系的な分析により、計算の非効率性の2つの主要な原因を特定する。すなわち、コンテキスト条件トークン内の固有の冗長性と、拡散プロセス全体を通してのコンテキストと潜在的な相互作用における計算の冗長性である。これらの洞察に基づき、我々はFullDiT2を提案する。FullDiT2は、ビデオ生成と編集タスクの両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークであり、2つの重要な観点から革新的である。第一に、トークンの冗長性に対処するため、FullDiT2は動的トークン選択メカニズムを活用し、重要なコンテキスト・トークンを適応的に識別し、統一的なフルアテンションのためのシーケンス長を短縮する。さらに、選択的コンテキストキャッシングメカニズムを考案し、条件トークンとビデオ潜在との間の冗長な相互作用を最小化する。6つの多様な条件付きビデオ編集・生成タスクに関する広範な実験により、FullDiT2が、ビデオ生成品質の劣化を最小限に抑え、あるいはさらに高い性能で、拡散ステップあたりの平均時間コストにおいて、大幅な計算削減と2〜3倍の高速化を達成することが実証された。プロジェクト・ページは 〚https://fulldit2.github.io/}{https://fulldit2.github.io/} にあります。

要約(オリジナル)

Fine-grained and efficient controllability on video diffusion transformers has raised increasing desires for the applicability. Recently, In-context Conditioning emerged as a powerful paradigm for unified conditional video generation, which enables diverse controls by concatenating varying context conditioning signals with noisy video latents into a long unified token sequence and jointly processing them via full-attention, e.g., FullDiT. Despite their effectiveness, these methods face quadratic computation overhead as task complexity increases, hindering practical deployment. In this paper, we study the efficiency bottleneck neglected in original in-context conditioning video generation framework. We begin with systematic analysis to identify two key sources of the computation inefficiencies: the inherent redundancy within context condition tokens and the computational redundancy in context-latent interactions throughout the diffusion process. Based on these insights, we propose FullDiT2, an efficient in-context conditioning framework for general controllability in both video generation and editing tasks, which innovates from two key perspectives. Firstly, to address the token redundancy, FullDiT2 leverages a dynamic token selection mechanism to adaptively identify important context tokens, reducing the sequence length for unified full-attention. Additionally, a selective context caching mechanism is devised to minimize redundant interactions between condition tokens and video latents. Extensive experiments on six diverse conditional video editing and generation tasks demonstrate that FullDiT2 achieves significant computation reduction and 2-3 times speedup in averaged time cost per diffusion step, with minimal degradation or even higher performance in video generation quality. The project page is at \href{https://fulldit2.github.io/}{https://fulldit2.github.io/}.

arxiv情報

著者 Xuanhua He,Quande Liu,Zixuan Ye,Wecai Ye,Qiulin Wang,Xintao Wang,Qifeng Chen,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-06-04 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク