Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

要約

トランスフォーマーベースの基盤モデルは、さまざまな分野、特に自然言語処理 (NLP) やコンピューター ビジョン (CV) にとって重要になっています。
これらのモデルは主に、高度にカスタマイズされた独自の命令セットを備えた高性能 GPU またはハードワイヤード アクセラレータ上にデプロイされます。
これまで、RISC-V ベースの汎用プラットフォームにはあまり注目されていませんでした。
私たちの研究では、分散型 Softmax プリミティブを実装し、SIMD 浮動小数点オペランド ストリーミングと命令繰り返しの ISA 拡張機能を活用した、オープンソースのメニー タイニー コア RISC-V プラットフォーム上のトランス モデルの最初のエンドツーエンド推論結果を示します。
、また、コストのかかるメイン メモリ アクセスを最小限に抑え、そのレイテンシを許容するための特殊な DMA エンジンも備えています。
私たちは、エンコーダのみとデコーダのみの 2 つの基本的なトランス トポロジに焦点を当てます。
エンコーダのみのモデルの場合、最も最適化された実装とベースライン バージョンとの間で最大 12.8 倍の高速化が実証されました。
79% 以上の FPU 使用率と 294 GFLOPS/W に達し、HW プラットフォームを利用することで最先端 (SoA) アクセラレータを 2 倍以上上回るパフォーマンスを実現しながら、計算ユニットあたり同等のスループットを達成します。
デコーダのみのトポロジでは、ベースライン実装と比較して、非自己回帰 (NAR) モードで 16.1 倍の高速化、自動回帰 (AR) モードで最大 35.6 倍の高速化を達成します。
最高の SoA 専用アクセラレータと比較して、2.04 倍の FPU 使用率を達成します。

要約(オリジナル)

Transformer-based foundation models have become crucial for various domains, most notably natural language processing (NLP) or computer vision (CV). These models are predominantly deployed on high-performance GPUs or hardwired accelerators with highly customized, proprietary instruction sets. Until now, limited attention has been given to RISC-V-based general-purpose platforms. In our work, we present the first end-to-end inference results of transformer models on an open-source many-tiny-core RISC-V platform implementing distributed Softmax primitives and leveraging ISA extensions for SIMD floating-point operand streaming and instruction repetition, as well as specialized DMA engines to minimize costly main memory accesses and to tolerate their latency. We focus on two foundational transformer topologies, encoder-only and decoder-only models. For encoder-only models, we demonstrate a speedup of up to 12.8x between the most optimized implementation and the baseline version. We reach over 79% FPU utilization and 294 GFLOPS/W, outperforming State-of-the-Art (SoA) accelerators by more than 2x utilizing the HW platform while achieving comparable throughput per computational unit. For decoder-only topologies, we achieve 16.1x speedup in the Non-Autoregressive (NAR) mode and up to 35.6x speedup in the Autoregressive (AR) mode compared to the baseline implementation. Compared to the best SoA dedicated accelerator, we achieve 2.04x higher FPU utilization.

arxiv情報

著者 Viviane Potocnik,Luca Colagrande,Tim Fischer,Luca Bertaccini,Daniele Jahier Pagliari,Alessio Burrello,Luca Benini
発行日 2024-05-29 17:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.AR, cs.DC パーマリンク