Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores

要約

大規模言語モデル (LLM) は広く適用されていますが、効率的な推論において課題に直面しています。
量子化手法により計算量は削減されますが、任意の精度での超低ビット量子化は、限られた GPU Tensor Core サポートと非効率なメモリ管理によって妨げられ、最適化されていないアクセラレーションにつながります。
これらの課題に対処するために、任意精度 LLM の包括的な高速化スキームを提案します。
その中核として、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ INT データ形式を導入し、データの冗長性を効果的に削減します。
これに基づいて、ビット レベルで行列を分解して復元する任意精度の行列乗算スキームを実装し、GPU Tensor コアの使用率を最大化しながら柔軟な精度を実現します。
さらに、後続の計算のデータ レイアウトを最適化する効率的な行列前処理方法を開発します。
最後に、高速共有メモリを戦略的に利用して、カーネルの実行速度を大幅に向上させ、メモリ アクセスの待ち時間を最小限に抑える、データ回復指向のメモリ管理システムを設計します。
実験結果では、NVIDIA の CUTLASS と比較して行列乗算が最大 13 倍高速化され、私たちのアプローチの有効性が実証されました。
LLM に統合すると、最大 6.7 倍の推論高速化が実現します。
これらの改善により、LLM の推論効率が大幅に向上し、LLM のより広範で応答性の高いアプリケーションが可能になります。

要約(オリジナル)

Large language models (LLMs) have been widely applied but face challenges in efficient inference. While quantization methods reduce computational demands, ultra-low bit quantization with arbitrary precision is hindered by limited GPU Tensor Core support and inefficient memory management, leading to suboptimal acceleration. To address these challenges, we propose a comprehensive acceleration scheme for arbitrary precision LLMs. At its core, we introduce a novel bipolar-INT data format that facilitates parallel computing and supports symmetric quantization, effectively reducing data redundancy. Building on this, we implement an arbitrary precision matrix multiplication scheme that decomposes and recovers matrices at the bit level, enabling flexible precision while maximizing GPU Tensor Core utilization. Furthermore, we develop an efficient matrix preprocessing method that optimizes data layout for subsequent computations. Finally, we design a data recovery-oriented memory management system that strategically utilizes fast shared memory, significantly enhancing kernel execution speed and minimizing memory access latency. Experimental results demonstrate our approach’s effectiveness, with up to 13\times speedup in matrix multiplication compared to NVIDIA’s CUTLASS. When integrated into LLMs, we achieve up to 6.7\times inference acceleration. These improvements significantly enhance LLM inference efficiency, enabling broader and more responsive applications of LLMs.

arxiv情報

著者 Shaobo Ma,Chao Fang,Haikuo Shao,Zhongfeng Wang
発行日 2024-09-26 14:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG パーマリンク