Assessing Tenstorrent’s RISC-V MatMul Acceleration Capabilities

要約

大規模な言語モデル(LLMS)サービスとしての生成AIの需要の増加により、計算効率とエネルギー消費を最適化する特殊なハードウェアアーキテクチャの必要性が促進されています。
このペーパーでは、LLM計算の基本的な動作である縮小数値精度での基本的な線形代数カーネルのTenStorrent Grayskull E75 RISC-Vアクセラレータの性能を評価します。
Grayskullの実行モデル、グリッドサイズ、マトリックス寸法、データ形式、および数値精度インパクト計算効率の詳細な特性評価を提示します。
さらに、Intel Sapphire Rapidsプロセッサと2つのNVIDIA GPU(V100およびA100)を含むテンソル加速を備えた最先端のアーキテクチャとグレイクスルのパフォーマンスを比較します。
Nvidia GPUは生のパフォーマンスを支配していますが、Grayskullは消費電力と計算スループットの競争的トレードオフを示し、BF16で1.55 TFLOPS/WATTのピークに達します。

要約(オリジナル)

The increasing demand for generative AI as Large Language Models (LLMs) services has driven the need for specialized hardware architectures that optimize computational efficiency and energy consumption. This paper evaluates the performance of the Tenstorrent Grayskull e75 RISC-V accelerator for basic linear algebra kernels at reduced numerical precision, a fundamental operation in LLM computations. We present a detailed characterization of Grayskull’s execution model, gridsize, matrix dimensions, data formats, and numerical precision impact computational efficiency. Furthermore, we compare Grayskull’s performance against state-of-the-art architectures with tensor acceleration, including Intel Sapphire Rapids processors and two NVIDIA GPUs (V100 and A100). Whilst NVIDIA GPUs dominate raw performance, Grayskull demonstrates a competitive trade-off between power consumption and computational throughput, reaching a peak of 1.55 TFLOPs/Watt with BF16.

arxiv情報

著者 Hiari Pizzini Cavagna,Daniele Cesarini,Andrea Bartolini
発行日 2025-05-09 14:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.PF パーマリンク