Systolic Arrays and Structured Pruning Co-design for Efficient Transformers in Edge Systems

要約

リソースを大量に消費するトランスフォーマーをエッジ デバイスに効率的に導入するには、スタック間の最適化が必要です。
したがって、構造化プルーニングと収縮期加速の相互関係を研究し、プルーニングされたブロックのサイズを収縮期アレイの次元と一致させます。
この設定では、プルーニングされた重みブロックの計算をスキップして、実行時間とエネルギー消費を削減できますが、サービス品質 (QoS) に影響を与える可能性があります。
シトリック アレイ サイズとスパース性の機会との間のトレードオフを評価するために、アルゴリズムの最適化、システム シミュレーション、およびハードウェア設計を統合する新しい共同設計フレームワークを提示します。
ケーススタディとしてトランスフォーマーを使用した音声認識を対象として、スタック全体の構成の選択がパフォーマンス メトリックにどのように影響するかを分析します。
結果は、シストリック アレイ アクセラレーションを備えたシステムで構造化プルーニングを行うと、高い QoS レベルを維持しながらパフォーマンスを効果的に向上できることを示しています。
構造化プルーニングによりシステム全体で最大 26% の高速化が測定され、標準の Librispeech データセットでは単語誤り率の低下はわずか 1.4% でした。

要約(オリジナル)

Efficient deployment of resource-intensive transformers on edge devices necessitates cross-stack optimization. We thus study the interrelation between structured pruning and systolic acceleration, matching the size of pruned blocks with the systolic array dimensions. In this setting, computations of pruned weight blocks can be skipped, reducing run-time and energy consumption, but potentially impacting quality of service (QoS). To evaluate the trade-offs between systolic array size and sparsity opportunities, we present a novel co-design framework that integrates algorithmic optimization, system simulation, and hardware design. Targeting speech recognition using transformers as a case study, we analyze how configuration choices across the stack affect performance metrics. Results demonstrate that structured pruning on systems featuring systolic array acceleration can effectively increase performance, while maintaining high QoS levels. Up to 26% system-wide speedups due to structured pruning were measured, with only 1.4% word error rate degradation on the standard Librispeech dataset.

arxiv情報

著者 Pedro Palacios,Rafael Medina,Jean-Luc Rouas,Giovanni Ansaloni,David Atienza
発行日 2024-11-15 15:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.AR, I.2.7 パーマリンク