Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

要約

拡散変圧器(DIT)は、ビデオや画像などの高品質の視覚コンテンツを生成するためのデファクトモデルになっています。
巨大なボトルネックは、複雑さが解像度とビデオの長さとともに二次的にスケーリングする注意メカニズムです。
この負担を軽減するための論理的な方法の1つは、トークンまたはパッチのサブセットのみが計算に含まれるまばらな注意です。
ただし、既存の手法では、視覚的な品質を非常に高いスパースレベルで維持できず、無視できない計算オーバーヘッドが発生する可能性さえあります。
%この懸念に対処するために、我々は再計具を提案します。これは、注意メカニズム内の確率的正常化シフトを克服するために拡散モデルの時間的冗長性を活用することにより、視覚生成モデルの非常にまばらな注意を導きます。
具体的には、非常に高いスパース性レベルで完全な二次注意の視覚的品質を維持するために、以前のソフトマックス分布履歴に基づいて、再び再構成を再形成します。
CogvideoxやPixart DITSなどのT2V/T2Iモデルの%実験結果は、推論中に再調整がトークンの3.1 \%を必要とし、FastDitatn、まばらなビデオゲン、ミニファレンスなどの現代的な方法を上回ることを示しています。
さらに、レイテンシを測定して、私たちの方法が、無視できるオーバーヘッドコストでH100 GPUで45%を超えるエンドツーエンド%および92 \%を超える自己関節レイテンシ削減を達成できることを示します。
ここでオンラインで入手可能なコード:\ href {https://github.com/cccrrrccc/re-ttention} {https://github.com/cccrrrccc/re-ttention}

要約(オリジナル)

Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. % To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. % Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1\% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference. Further, we measure latency to show that our method can attain over 45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU at negligible overhead cost. Code available online here: \href{https://github.com/cccrrrccc/Re-ttention}{https://github.com/cccrrrccc/Re-ttention}

arxiv情報

著者 Ruichen Chen,Keith G. Mills,Liyao Jiang,Chao Gao,Di Niu
発行日 2025-05-30 17:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク