Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

要約

拡散変換(DiT)はビデオ生成において画期的な進歩を遂げたが、この長いシーケンス生成タスクは注意メカニズムの2次的な複雑さに制約されたままであり、その結果、推論待ち時間が大きくなっている。Video Diffusion Transformer (vDiT)における注意マップの詳細な解析を通して、我々は3つの繰り返し発生するスパースパターンを特定する。また、3-6%の注意ヘッドでさえもスキップすることができる。重要なことは、これらのパターンは強い層深度とヘッド位置の相関を示すが、入力内容への依存性は限定的であることである。これらの発見を活用して、我々はvDiTのためのスパースアクセラレーションフレームワークであるSparse-vDiTを提案する:1)パターン最適化されたスパースカーネルは、同定された各スパースパターンに対して計算効率の良い実装で密な注意を置き換える。2) ハードウェアを考慮したコストモデリングにより、レイヤーとヘッドごとに最適なスパース計算戦略を選択するオフラインスパース拡散探索アルゴリズム。最適な構成を決定した後、同じ注意戦略を共有する同じレイヤー内のヘッドを融合し、推論効率を高める。最新のvDiTモデル(CogVideoX1.5、HunyuanVideo、 Wan2.1)に統合されたSparse-vDiTは、理論的なFLOP削減を2.09$times$、 2.38$times$、1.67$times$達成し、実際の推論スピードアップを1.76$times$、1.85$times$、1.58$times$の実際の推論高速化を実現し、PSNR値は24.13、27.09、22.59に達し、高い視覚的忠実性を維持する。我々の研究は、vDiTにおける潜在的な構造的スパース性を、長いビデオ合成のために系統的に利用できることを示している。

要約(オリジナル)

While Diffusion Transformers (DiTs) have achieved breakthroughs in video generation, this long sequence generation task remains constrained by the quadratic complexity of attention mechanisms, resulting in significant inference latency. Through detailed analysis of attention maps in Video Diffusion Transformer (vDiT), we identify three recurring sparsity patterns: diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\% attention heads can be skipped. Crucially, these patterns exhibit strong layer-depth and head-position correlations but show limited dependence on the input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels that replace dense attention with computationally efficient implementations for each identified sparsity pattern. 2) An offline sparse diffusion search algorithm that selects the optimal sparse computation strategy per layer and head via hardware-aware cost modeling. After determining the optimal configuration, we fuse heads within the same layer that share the same attention strategy, enhancing inference efficiency. Integrated into state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1), Sparse-vDiT achieves 2.09$\times$, 2.38$\times$, and 1.67$\times$ theoretical FLOP reduction, and actual inference speedups of 1.76$\times$, 1.85$\times$, and 1.58$\times$, respectively, while maintaining high visual fidelity, with PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent structural sparsity in vDiTs can be systematically exploited for long video synthesis.

arxiv情報

著者 Pengtao Chen,Xianfang Zeng,Maosen Zhao,Peng Ye,Mingzhu Shen,Wei Cheng,Gang Yu,Tao Chen
発行日 2025-06-03 16:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク