Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization

要約

ビジョン変換器(ViT)は、コンピュータビジョンのタスクにおいて著しく精度を向上させることができるようになりました。しかし、その複雑なアーキテクチャと膨大な計算量・記憶容量から、新しいハードウェアアクセラレータの設計手法が急務となっている。本研究では、提案する混合スキーム量子化法に基づき、FPGAを意識した自動ViTアクセラレータフレームワークを提案する。我々の知る限り、これはモデル量子化を探求する最初のFPGAベースのViTアクセラレーションフレームワークである。最新のViT量子化手法(ハードウェアアクセラレーションを用いないアルゴリズムアプローチのみ)と比較すると、同じビット幅で0.47%から1.36%高いTop-1精度を達成することができました。また、32ビット浮動小数点ベースのFPGAアクセラレータと比較して、DeiT-baseのImageNetデータセットにおいて、フレームレートを約5.6倍向上(56.8 FPS vs 10.0 FPS)、精度を0.71%低下させることに成功しています。

要約(オリジナル)

Vision transformers (ViTs) are emerging with significantly improved accuracy in computer vision tasks. However, their complex architecture and enormous computation/storage demand impose urgent needs for new hardware accelerator design methodology. This work proposes an FPGA-aware automatic ViT acceleration framework based on the proposed mixed-scheme quantization. To the best of our knowledge, this is the first FPGA-based ViT acceleration framework exploring model quantization. Compared with state-of-the-art ViT quantization work (algorithmic approach only without hardware acceleration), our quantization achieves 0.47% to 1.36% higher Top-1 accuracy under the same bit-width. Compared with the 32-bit floating-point baseline FPGA accelerator, our accelerator achieves around 5.6x improvement on the frame rate (i.e., 56.8 FPS vs. 10.0 FPS) with 0.71% accuracy drop on ImageNet dataset for DeiT-base.

arxiv情報

著者 Zhengang Li,Mengshu Sun,Alec Lu,Haoyu Ma,Geng Yuan,Yanyue Xie,Hao Tang,Yanyu Li,Miriam Leeser,Zhangyang Wang,Xue Lin,Zhenman Fang
発行日 2022-08-10 05:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク