BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge

要約

既存のバイナリ Transformer は、モデル サイズがコンパクトで、計算の複雑さが低く、推論精度が高いため、エッジ展開で有望です。しかし、バイナリ Transformer の展開は、量子化行列乗算 (QMM) の非効率な実行とエネルギー消費のオーバーヘッドにより、以前のプロセッサでは課題に直面しています。
上記の課題に取り組むために、まずバイナリ Transformer の計算フロー抽象化手法を開発し、計算順序を最適化することで QMM の実行効率を向上させます。さらに、バイナリ化されたエネルギー効率の高い Transformer アクセラレータ、つまり BETA を提案します。
特に、BETA は構成可能な QMM エンジンを備えており、バイナリ トランスフォーマーのさまざまなアクティベーション精度に対応し、優れたエネルギー効率で QMM に高い並列性と高速性を提供します。ZCU102 FPGA で評価された実験結果は、BETA が達成した成果を示しています
平均エネルギー効率は 174 GOPS/W で、これは以前の FPGA ベースのアクセラレータよりも 1.76 ~ 21.92 倍高く、エッジ トランスフォーマ アクセラレーションにおける BETA の優れた可能性を示しています。

要約(オリジナル)

Existing binary Transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy.However, deploying binary Transformers faces challenges on prior processors due to inefficient execution of quantized matrix multiplication (QMM) and the energy consumption overhead caused by multi-precision activations.To tackle the challenges above, we first develop a computation flow abstraction method for binary Transformers to improve QMM execution efficiency by optimizing the computation order.Furthermore, a binarized energy-efficient Transformer accelerator, namely BETA, is proposed to boost the efficient deployment at the edge.Notably, BETA features a configurable QMM engine, accommodating diverse activation precisions of binary Transformers and offering high-parallelism and high-speed for QMMs with impressive energy efficiency.Experimental results evaluated on ZCU102 FPGA show BETA achieves an average energy efficiency of 174 GOPS/W, which is 1.76~21.92x higher than prior FPGA-based accelerators, showing BETA’s good potential for edge Transformer acceleration.

arxiv情報

著者 Yuhao Ji,Chao Fang,Zhongfeng Wang
発行日 2024-01-22 11:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR パーマリンク