DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

要約

拡散トランス(DIT)は、高品質のビデオのモデリングと生成において顕著なパフォーマンスを示しています。
ただし、3D完全な注意メカニズムの二次計算の複雑さは、特に高解像度と長いビデオのスケーリングビデオDITトレーニングに大きな課題を示します。
大きな入力サイズを処理するため。
このペーパーでは、トレーニングプロセス全体で固有の動的な注意スパース性を活用することにより、ビデオDITのトレーニングを加速および拡大するように設計された新しいフレームワークであるDSVを紹介します。
DSVは、スパースパターンを悪用する2段階のトレーニングアルゴリズムを採用しており、効率的でカスタマイズされたカーネルによってサポートされている重要な要素に焦点を当てています。
新しいスパースの次元に対応するために、ハイブリッドスパースアウェアコンテキストの並列性を開発し、注意ヘッドとブロック全体でスパースの不均一性に対処することにより、大きな入力に効果的にスケーリングし、最適化されたスパースの計算と通信をもたらします。
広範な評価は、DSVが品質の低下をほとんど伴わずにトレーニングスループットで最大3.02倍の増加を達成することを示しています。

要約(オリジナル)

Diffusion Transformers (DiTs) have shown remarkable performance in modeling and generating high-quality videos. However, the quadratic computational complexity of 3D full attention mechanism presents significant challenges in scaling video DiT training, especially for high-definition and lengthy videos, where attention can dominate up to 95% of the end-to-end time and necessitate specialized communication paradigms to handle large input sizes. This paper introduces DSV, a novel framework designed to accelerate and scale the training of video DiTs by leveraging the inherent dynamic attention sparsity throughout the training process. DSV employs a two-stage training algorithm that exploits sparsity patterns, focusing on critical elements supported by efficient, tailored kernels. To accommodate the new sparsity dimension, we develop a hybrid sparsity-aware context parallelism that effectively scales to large inputs by addressing the heterogeneity of sparsity across attention heads and blocks, resulting in optimized sparse computation and communication. Extensive evaluations demonstrate that DSV achieves up to 3.02x gain in training throughput with nearly no quality degradation.

arxiv情報

著者 Xin Tan,Yuetao Chen,Yimin Jiang,Xing Chen,Kun Yan,Nan Duan,Yibo Zhu,Daxin Jiang,Hong Xu
発行日 2025-02-11 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC パーマリンク