Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts

要約

コンピューター ビジョンの研究者は、ビジョン トランスフォーマー (ViT) とマルチタスク学習 (MTL) という 2 つの有望なパラダイムを採用しています。どちらも優れたパフォーマンスを示しますが、ViT における自己注意の二次的な複雑さと、
1 つのタスクに対して大規模な MTL モデル全体。
M$^3$ViT は、専門家混合 (MoE) を導入した最新のマルチタスク ViT モデルです。MoE では、サブネットワークのごく一部 (「専門家」) のみが現在のタスクに基づいてまばらかつ動的にアクティブ化されます。
M$^3$ViT は精度の向上と 80% 以上の計算量の削減を実現しますが、FPGA での効率的な展開には課題が残されています。
Edge-MoE と呼ばれる私たちの取り組みは、(1) セルフアテンションのための新しい並べ替えメカニズムを含む、一連のアーキテクチャ革新を備えたマルチタスク ViT 用の初のエンドツーエンド FPGA アクセラレータを導入するための課題を解決します。
ターゲットの並列処理に関係なく一定の帯域幅。
(2) 高速シングルパスソフトマックス近似。
(3) 正確かつ低コストの GELU 近似。
(4) リソース使用量を最大限に削減するために、ほぼすべての計算層で共有される統合された柔軟なコンピューティング ユニット。
(5) M$^3$ViT 独自の、メモリ アクセスのオーバーヘッドを排除する新しいパッチ並べ替え方法。
Edge-MoE は、GPU と CPU と比較して、それぞれ 2.24 倍と 4.90 倍の優れたエネルギー効率を実現します。
リアルタイムのビデオ デモンストレーションは、高位合成を使用して作成されたオープンソース コードとともにオンラインで利用できます。

要約(オリジナル)

Computer vision researchers are embracing two promising paradigms: Vision Transformers (ViTs) and Multi-task Learning (MTL), which both show great performance but are computation-intensive, given the quadratic complexity of self-attention in ViT and the need to activate an entire large MTL model for one task. M$^3$ViT is the latest multi-task ViT model that introduces mixture-of-experts (MoE), where only a small portion of subnetworks (‘experts’) are sparsely and dynamically activated based on the current task. M$^3$ViT achieves better accuracy and over 80% computation reduction but leaves challenges for efficient deployment on FPGA. Our work, dubbed Edge-MoE, solves the challenges to introduce the first end-to-end FPGA accelerator for multi-task ViT with a collection of architectural innovations, including (1) a novel reordering mechanism for self-attention, which requires only constant bandwidth regardless of the target parallelism; (2) a fast single-pass softmax approximation; (3) an accurate and low-cost GELU approximation; (4) a unified and flexible computing unit that is shared by almost all computational layers to maximally reduce resource usage; and (5) uniquely for M$^3$ViT, a novel patch reordering method to eliminate memory access overhead. Edge-MoE achieves 2.24x and 4.90x better energy efficiency comparing with GPU and CPU, respectively. A real-time video demonstration is available online, along with our open-source code written using High-Level Synthesis.

arxiv情報

著者 Rishov Sarkar,Hanxue Liang,Zhiwen Fan,Zhangyang Wang,Cong Hao
発行日 2023-09-13 16:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV パーマリンク