Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT

要約

このペーパーでは、AIoT システムにおけるオンデバイス時系列予測用に最適化された、Transformers 用のハードウェア アクセラレータの設計について説明します。
整数のみの量子化と量子化対応トレーニングを最適化されたハードウェア設計と統合して、6 ビットおよび 4 ビットの量子化 Transformer モデルを実現し、関連研究による 8 ビット量子化モデルに匹敵する精度を達成しました。
組み込み FPGA (Xilinx Spartan-7 XC7S15) 上の完全な実装を利用して、組み込み IoT デバイスに Transformer モデルを展開する実現可能性を検証します。
これには、オンデバイス推論の達成可能な精度、リソース使用率、タイミング、電力、エネルギー消費の徹底的な分析が含まれます。
私たちの結果は、十分なパフォーマンスは達成できるものの、最適化プロセスが簡単ではないことを示しています。
たとえば、量子化ビット幅を縮小してもレイテンシやエネルギー消費が一貫して減少するわけではなく、さまざまな最適化の組み合わせを体系的に検討する必要性が強調されます。
関連研究における 8 ビット量子化 Transformer モデルと比較して、当社の 4 ビット量子化 Transformer モデルはテスト損失をわずか 0.63% 増加させ、最大 132.33 倍高速に動作し、消費エネルギーは 48.19 分の 1 です。

要約(オリジナル)

This paper presents the design of a hardware accelerator for Transformers, optimized for on-device time-series forecasting in AIoT systems. It integrates integer-only quantization and Quantization-Aware Training with optimized hardware designs to realize 6-bit and 4-bit quantized Transformer models, which achieved precision comparable to 8-bit quantized models from related research. Utilizing a complete implementation on an embedded FPGA (Xilinx Spartan-7 XC7S15), we examine the feasibility of deploying Transformer models on embedded IoT devices. This includes a thorough analysis of achievable precision, resource utilization, timing, power, and energy consumption for on-device inference. Our results indicate that while sufficient performance can be attained, the optimization process is not trivial. For instance, reducing the quantization bitwidth does not consistently result in decreased latency or energy consumption, underscoring the necessity of systematically exploring various optimization combinations. Compared to an 8-bit quantized Transformer model in related studies, our 4-bit quantized Transformer model increases test loss by only 0.63%, operates up to 132.33x faster, and consumes 48.19x less energy.

arxiv情報

著者 Tianheng Ling,Chao Qian,Gregor Schiele
発行日 2024-09-06 13:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク