ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized Transformers

要約

トランスフォーマー ネットワークは、自然言語処理タスクに対する最先端のアプローチとして登場し、コンピューター ビジョンやオーディオ処理などの他の分野でも人気が高まっています。
ただし、トランスフォーマー モデルの効率的なハードウェア アクセラレーションは、高い演算強度、大規模なメモリ要件、および複雑なデータフローの依存関係により、新たな課題を引き起こします。
この研究では、8 ビット量子化と整数値のみで動作する革新的なソフトマックス実装を活用することにより、組み込みシステムでの効率的な推論をターゲットとする変圧器および関連モデル用の新しいアクセラレータ アーキテクチャである ITA を提案します。
ストリーミング モードでオンザフライで計算することにより、当社のソフトマックス実装はデータの移動とエネルギー消費を最小限に抑えます。
ITAは、最先端の変圧器加速器に対して16.9 TOPS/Wという競争力のあるエネルギー効率を達成し、同時に22nmの完全空乏型シリコン・オン・インシュレータ技術では5.93 TOPS/mm$^2$という面積効率でそれらを上回ります。
0.8Vで。

要約(オリジナル)

Transformer networks have emerged as the state-of-the-art approach for natural language processing tasks and are gaining popularity in other domains such as computer vision and audio processing. However, the efficient hardware acceleration of transformer models poses new challenges due to their high arithmetic intensities, large memory requirements, and complex dataflow dependencies. In this work, we propose ITA, a novel accelerator architecture for transformers and related models that targets efficient inference on embedded systems by exploiting 8-bit quantization and an innovative softmax implementation that operates exclusively on integer values. By computing on-the-fly in streaming mode, our softmax implementation minimizes data movement and energy consumption. ITA achieves competitive energy efficiency with respect to state-of-the-art transformer accelerators with 16.9 TOPS/W, while outperforming them in area efficiency with 5.93 TOPS/mm$^2$ in 22 nm fully-depleted silicon-on-insulator technology at 0.8 V.

arxiv情報

著者 Gamze İslamoğlu,Moritz Scherer,Gianna Paulin,Tim Fischer,Victor J. B. Jung,Angelo Garofalo,Luca Benini
発行日 2023-07-07 10:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG パーマリンク