SwiftTron: An Efficient Hardware Accelerator for Quantized Transformers

要約

タイトル:Quantized Transformersに対する効率的なハードウェアアクセラレータ、SwiftTron
要約:

– Transformersは計算コストが高く、エッジAIやtinyMLデバイスへの展開に課題がある。
– 量子化はハードウェアの計算資源やメモリ資源を削減するための確立されたニューラルネットワーク圧縮技術であり、固定小数点化は、加算器や乗算器などの軽量ブロックを使用して計算を簡単にするため望ましい。
– しかし、既存の汎用ハードウェア、汎用AIアクセラレータ、もしくは浮動小数点部分を持つ特化したTransformersアーキテクチャーに完全に量子化されたTransformersを展開することは不可能かつ/または効率的ではない。
– これに対し、Quantized Transformersに対する効率的な特化型ハードウェアアクセラレータであるSwiftTronを提案する。
– SwiftTronはAttention、Softmax、GELU、Layer NormalizationなどTransformersのさまざまな種類の演算を実行でき、正しい計算を行うためのさまざまなスケーリングファクターを考慮する。
– 我々は、ASIC設計フローを用いて、$65$ nm CMOS技術で完全なSwiftTronアーキテクチャを合成した。最終的なSwiftTronアクセラレータは、RoBERTa-baseモデルを1.83 nsで実行し、33.64 mWの電力を消費し、273 mm^2の面積を占有する。
– 再現性を簡単にするために、私たちのSwiftTronアーキテクチャのRTLはhttps://github.com/albertomarchisio/SwiftTronで公開されています。

要約(オリジナル)

Transformers’ compute-intensive operations pose enormous challenges for their deployment in resource-constrained EdgeAI / tinyML devices. As an established neural network compression technique, quantization reduces the hardware computational and memory resources. In particular, fixed-point quantization is desirable to ease the computations using lightweight blocks, like adders and multipliers, of the underlying hardware. However, deploying fully-quantized Transformers on existing general-purpose hardware, generic AI accelerators, or specialized architectures for Transformers with floating-point units might be infeasible and/or inefficient. Towards this, we propose SwiftTron, an efficient specialized hardware accelerator designed for Quantized Transformers. SwiftTron supports the execution of different types of Transformers’ operations (like Attention, Softmax, GELU, and Layer Normalization) and accounts for diverse scaling factors to perform correct computations. We synthesize the complete SwiftTron architecture in a $65$ nm CMOS technology with the ASIC design flow. Our Accelerator executes the RoBERTa-base model in 1.83 ns, while consuming 33.64 mW power, and occupying an area of 273 mm^2. To ease the reproducibility, the RTL of our SwiftTron architecture is released at https://github.com/albertomarchisio/SwiftTron.

arxiv情報

著者 Alberto Marchisio,Davide Dura,Maurizio Capra,Maurizio Martina,Guido Masera,Muhammad Shafique
発行日 2023-04-25 10:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク