A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving

要約

大規模な言語モデル(LLMS)を提供することは、AIを搭載したアプリケーションにとって重要ですが、特にメモリ帯域幅と計算スループットでは、かなりの計算リソースが必要です。
低精度の計算は、リソースの消費を削減しながら効率を改善するための重要な手法として浮上しています。
低精度カーネルを生成するための既存のアプローチは、2つのパワーであり、高レベルのGPUプログラミングの抽象化により最適ではないパフォーマンスに苦しむ重量ビット幅に制限されています。
これらの抽象化は、効率的な低精度計算に不可欠な、微調整されたレジスタ管理や最適化されたメモリアクセスパターンなど、重要な最適化を制限します。
このホワイトペーパーでは、GPUプログラマ性を維持しながら任意のビット幅で低精度のデータ型をサポートできるように、一般的な視点GPU(GPGPU)コンピューティング用に設計された仮想マシン(VM)を紹介します。
提案されているVMは、スレッドブロックレベルのプログラミングモデル、階層メモリスペース、新しい代数レイアウトシステム、および多様な低精度データ型の広範なサポートを備えています。
VMプログラムは、自動ベクトル化と命令選択により、非常に効率的なGPUプログラムにまとめられています。
広範な実験は、当社のVMが低精度データ型の全範囲を効率的にサポートし、サポートされているタイプの最先端の低精度カーネルを上回ることを示しています。
TritonやLadderなどの既存のコンパイラや、QuantllmやMarlinなどの手最適化されたカーネルと比較して、VMはそれぞれ1.75x、2.61x、1.29x、1.03xのパフォーマンス改善を達成します。

要約(オリジナル)

Serving Large Language Models (LLMs) is critical for AI-powered applications but demands substantial computational resources, particularly in memory bandwidth and computational throughput. Low-precision computation has emerged as a key technique to improve efficiency while reducing resource consumption. Existing approaches for generating low-precision kernels are limited to weight bit widths that are powers of two and suffer from suboptimal performance due to high-level GPU programming abstractions. These abstractions restrict critical optimizations, such as fine-grained register management and optimized memory access patterns, which are essential for efficient low-precision computations. In this paper, we introduce a virtual machine (VM) designed for General-Purpose GPU (GPGPU) computing, enabling support for low-precision data types with arbitrary bit widths while maintaining GPU programmability. The proposed VM features a thread-block-level programming model, a hierarchical memory space, a novel algebraic layout system, and extensive support for diverse low-precision data types. VM programs are compiled into highly efficient GPU programs with automatic vectorization and instruction selection. Extensive experiments demonstrate that our VM efficiently supports a full spectrum of low-precision data types, and outperforms state-of-the-art low-precision kernels on their supported types. Compared to existing compilers like Triton and Ladder, as well as hand-optimized kernels such as QuantLLM and Marlin, our VM achieves performance improvements of 1.75x, 2.61x, 1.29x and 1.03x, respectively.

arxiv情報

著者 Yaoyao Ding,Bohan Hou,Xiao Zhang,Allan Lin,Tianqi Chen,Cody Yu Hao,Yida Wang,Gennady Pekhimenko
発行日 2025-04-17 14:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL パーマリンク