An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT


ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンで大きな成功を収めています。
ただし、その集中的な計算と膨大なメモリ使用量は、組み込みデバイスへの ViT の展開に課題をもたらし、効率的な ViT が求められます。
その中でも、最先端の EfficientViT は、畳み込みトランスフォーマー ハイブリッド アーキテクチャを特徴としており、精度とハードウェア効率の両方を向上させます。
残念ながら、既存のアクセラレータは、その独自のアーキテクチャにより、EfficientViT のハードウェアの利点を十分に活用できません。
本稿では、ViT のハードウェア効率のフロンティアを前進させるための EfficientViT 用の FPGA ベースのアクセラレータを提案します。
さらに、層内および層間の融合を容易にし、オフチップのデータ アクセス コストを削減する、時間多重化およびパイプライン化されたデータフローを紹介します。
実験結果によると、当社のアクセラレータは、ザイリンクス ZCU102 FPGA 上で 200MHz で最大 780.2 GOPS のスループットと 105.1 GOPS/W のエネルギー効率を達成し、これまでの研究を大幅に上回っています。


Vision Transformers (ViTs) have achieved significant success in computer vision. However, their intensive computations and massive memory footprint challenge ViTs’ deployment on embedded devices, calling for efficient ViTs. Among them, EfficientViT, the state-of-the-art one, features a Convolution-Transformer hybrid architecture, enhancing both accuracy and hardware efficiency. Unfortunately, existing accelerators cannot fully exploit the hardware benefits of EfficientViT due to its unique architecture. In this paper, we propose an FPGA-based accelerator for EfficientViT to advance the hardware efficiency frontier of ViTs. Specifically, we design a reconfigurable architecture to efficiently support various operation types, including lightweight convolutions and attention, boosting hardware utilization. Additionally, we present a time-multiplexed and pipelined dataflow to facilitate both intra- and inter-layer fusions, reducing off-chip data access costs. Experimental results show that our accelerator achieves up to 780.2 GOPS in throughput and 105.1 GOPS/W in energy efficiency at 200MHz on the Xilinx ZCU102 FPGA, which significantly outperforms prior works.


著者 Haikuo Shao,Huihong Shi,Wendong Mao,Zhongfeng Wang
発行日 2024-03-29 15:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AR, cs.LG パーマリンク