BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge

要約

既存のバイナリ Transformer は、コンパクトなモデル サイズ、低い計算複雑さ、およびかなりの推論精度により、エッジ展開で有望です。
ただし、バイナリ Transformer の導入は、量子化行列乗算 (QMM) の非効率的な実行と、多精度のアクティベーションによって引き起こされるエネルギー消費のオーバーヘッドにより、以前のプロセッサでは課題に直面しています。
上記の課題に取り組むために、まずバイナリ Transformer の計算フロー抽象化手法を開発し、計算順序を最適化することで QMM の実行効率を向上させます。
さらに、エッジでの効率的な導入を促進するために、バイナリ化されたエネルギー効率の高い Transformer アクセラレータ、つまり BETA が提案されています。
特に、BETA は構成可能な QMM エンジンを備えており、バイナリ トランスフォーマーのさまざまなアクティベーション精度に対応し、優れたエネルギー効率で QMM に高い並列性と高速性を提供します。
ZCU102 FPGA で評価された実験結果では、BETA が 174 GOPS/W の平均エネルギー効率を達成していることが示されており、これは以前の FPGA ベースのアクセラレータよりも 1.76 ~ 21.92 倍高く、エッジ トランスフォーマ アクセラレーションにおける BETA の優れた可能性を示しています。

要約(オリジナル)

Existing binary Transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy. However, deploying binary Transformers faces challenges on prior processors due to inefficient execution of quantized matrix multiplication (QMM) and the energy consumption overhead caused by multi-precision activations. To tackle the challenges above, we first develop a computation flow abstraction method for binary Transformers to improve QMM execution efficiency by optimizing the computation order. Furthermore, a binarized energy-efficient Transformer accelerator, namely BETA, is proposed to boost the efficient deployment at the edge. Notably, BETA features a configurable QMM engine, accommodating diverse activation precisions of binary Transformers and offering high-parallelism and high-speed for QMMs with impressive energy efficiency. Experimental results evaluated on ZCU102 FPGA show BETA achieves an average energy efficiency of 174 GOPS/W, which is 1.76~21.92x higher than prior FPGA-based accelerators, showing BETA’s good potential for edge Transformer acceleration.

arxiv情報

著者 Yuhao Ji,Chao Fang,Zhongfeng Wang
発行日 2024-01-23 04:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR パーマリンク