GPU Performance Portability needs Autotuning

要約

LLMSが複雑になるにつれて、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア全体の厳しい共同設計が必要です。
今日の単一の支配的なプラットフォームへの依存は、移植性を制限し、ベンダーのロックインを作成し、新しいAIハードウェアの障壁を引き上げます。
この作業では、ジャストインタイム(JIT)コンパイルとカーネルパラメーターのコンパイルを組み合わせて、コード変更なしで最先端のパフォーマンスとポータブルLLM推論を可能にすることをお勧めします。
Flashの注意に焦点を当てている – 広範囲にわたるパフォーマンスの重要なLLMカーネル – このアプローチは、最大15倍のカーネルパラメーター構成を調査し、複数の次元で大幅に多様なコードを生成し、ベンダーが最大限に補償された実装を最大230%上回ることを実証します。
私たちの結果は、GPUベンダー全体でモデルの移植性を解き放つための有望なパスとしてのオートチューニングを強調しています。

要約(オリジナル)

As LLMs grow in complexity, achieving state-of-the-art performance requires tight co-design across algorithms, software, and hardware. Today’s reliance on a single dominant platform limits portability, creates vendor lock-in, and raises barriers for new AI hardware. In this work, we make the case for combining just-in-time (JIT) compilation with kernel parameter autotuning to enable portable LLM inference with state-of-the-art performance without code changes. Focusing on flash attention — a widespread performance critical LLM kernel — we demonstrate that this approach explores up to 15x more kernel parameter configurations, produces significantly more diverse code across multiple dimensions, and even outperforms vendor-optimized implementations by up to 230%, all while reducing kernel code size by 70x and eliminating manual code optimizations. Our results highlight autotuning as a promising path to unlocking model portability across GPU vendors.

arxiv情報

著者 Burkhard Ringlein,Thomas Parnell,Radu Stoica
発行日 2025-05-15 14:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.PL パーマリンク