要約
この研究では、リソースに制約のある組み込み FPGA (Xilinx Spartan-7 XC7S15) 上での整数のみの量子化トランスフォーマーの展開の課題に取り組みます。
モデル層全体で中間結果を保存するための選択可能なリソース タイプを導入することにより、VHDL テンプレートの柔軟性が強化され、BRAM を効率的に利用することで展開のボトルネックが解消されました。
さらに、研究者がニューラル アーキテクチャ検索に関する広範な専門知識を必要とせずにハードウェア レベルの量子化戦略を検討できるようにする、リソースを意識した混合精度量子化アプローチを開発しました。
この方法では、実際のデプロイメトリクスと比較して、精度の誤差が 3% 程度の正確なリソース使用率の見積もりが得られます。
以前の研究と比較して、私たちのアプローチは混合精度量子化を利用したモデル構成の展開を容易にすることに成功し、均一な量子化ビット幅では以前は展開できなかった 5 つの構成に固有の制限を克服しました。
その結果、この研究は組み込みシステムにおけるトランスフォーマーの適用性を強化し、エッジデバイス上でトランスフォーマーを利用した幅広いアプリケーションを促進します。
要約(オリジナル)
This study addresses the deployment challenges of integer-only quantized Transformers on resource-constrained embedded FPGAs (Xilinx Spartan-7 XC7S15). We enhanced the flexibility of our VHDL template by introducing a selectable resource type for storing intermediate results across model layers, thereby breaking the deployment bottleneck by utilizing BRAM efficiently. Moreover, we developed a resource-aware mixed-precision quantization approach that enables researchers to explore hardware-level quantization strategies without requiring extensive expertise in Neural Architecture Search. This method provides accurate resource utilization estimates with a precision discrepancy as low as 3%, compared to actual deployment metrics. Compared to previous work, our approach has successfully facilitated the deployment of model configurations utilizing mixed-precision quantization, thus overcoming the limitations inherent in five previously non-deployable configurations with uniform quantization bitwidths. Consequently, this research enhances the applicability of Transformers in embedded systems, facilitating a broader range of Transformer-powered applications on edge devices.
arxiv情報
著者 | Tianheng Ling,Chao Qian,Gregor Schiele |
発行日 | 2024-10-30 16:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google