Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs

要約

現在まで、2:4 スパース性は、GPU 上のスパース テンソル コアを使用して高速化できる唯一のスパース パターンです。
実際には、2:4 スパース性は実際の速度向上が低く ($\leq 1.3$)、固定のスパース比を必要とすることがよくあります。つまり、4:8、8:16、または 50% を超えるスパース性などの他の比率では影響がありません。
GPU の高速化。
最近の研究では、V:N:M スパース性が 2:4 スパース性の制限に対処する上で有望であることが示唆されています。
ただし、精度に関しては、ビジョン Transformer や大規模言語モデル (LLM) など、より広範な Transformer モデルに対する V:N:M スパース性の影響はほとんど調査されていません。
さらに、適切な V 値と M 値を選択する方法など、V:N:M スパース性に関連するいくつかの特定の問題は未解決のままです。
この研究では、下流のタスクに関連するものから、複数のタスクにわたるビジョン モデルと LLM における V:N:M スパース性の適用を徹底的に調査します。
我々は、ヒューリスティックな V および M 選択、V:N:M 固有のチャネル順列、および 3 段階の LoRA トレーニング手法を含む、V:N:M スパース トランスフォーマーの適用性と精度を向上させるための 3 つの主要なアプローチを提案します。
実験結果は、私たちの方法を使用すると、DeiT-small が 64:2:5 スパース性でロスレス精度を達成するのに対し、DeiT ベースは 64:2:8 スパース性でも精度を維持することを示しています。
さらに、64:2:5 スパースで微調整された LLama2-7B は、ダウンストリーム タスクにおいてトレーニング不要の 2:4 スパース代替案と同等以上のパフォーマンスを発揮します。
さらに重要なことは、V:N:M スパース トランスフォーマーは、2:4 スパースと比較して、高速化と精度のトレードオフの範囲が広いことです。
全体として、私たちの調査により、コスト重視の推論シナリオにおいて V:N:M スパース性が Transformer の真に効果的な加速ソリューションとして機能することが大幅に促進されました。

要約(オリジナル)

To date, 2:4 sparsity has stood as the only sparse pattern that can be accelerated using sparse tensor cores on GPUs. In practice, 2:4 sparsity often possesses low actual speedups ($\leq 1.3$) and requires fixed sparse ratios, meaning that other ratios, such as 4:8, 8:16, or those exceeding 50% sparsity, do not incur any speedups on GPUs. Recent studies suggest that V:N:M sparsity is promising in addressing these limitations of 2:4 sparsity. However, regarding accuracy, the effects of V:N:M sparsity on broader Transformer models, such as vision Transformers and large language models (LLMs), are largely unexamined. Moreover, Some specific issues related to V:N:M sparsity, such as how to select appropriate V and M values, remain unresolved. In this study, we thoroughly investigate the application of V:N:M sparsity in vision models and LLMs across multiple tasks, from pertaining to downstream tasks. We propose three key approaches to enhance the applicability and accuracy of V:N:M-sparse Transformers, including heuristic V and M selection, V:N:M-specific channel permutation, and three-staged LoRA training techniques. Experimental results show that, with our methods, the DeiT-small achieves lossless accuracy at 64:2:5 sparsity, while the DeiT-base maintains accuracy even at 64:2:8 sparsity. In addition, the fine-tuned LLama2-7B at 64:2:5 sparsity performs comparably or better than training-free 2:4 sparse alternatives on downstream tasks. More importantly, V:N:M-sparse Transformers offer a wider range of speedup-accuracy trade-offs compared to 2:4 sparsity. Overall, our exploration largely facilitates the V:N:M sparsity to act as a truly effective acceleration solution for Transformers in cost-sensitive inference scenarios.

arxiv情報

著者 Kang Zhao,Tao Yuan,Han Bao,Zhenfeng Su,Chang Gao,Zhaofeng Sun,Zichen Liang,Liping Jing,Jianfei Chen
発行日 2024-10-21 16:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク