要約
トランスフォーマーベースの大規模言語モデル (LLM) は、さまざまなドメインに大きな影響を与えています。
ただし、LLM の効率は、大量の計算とメモリのオーバーヘッドの両方によって低下します。
スパース化や量子化などの圧縮技術は、LLM の計算/メモリのオーバーヘッドとハードウェア容量の間のギャップを軽減するために一般的に使用されます。
ただし、既存の GPU およびトランスフォーマー ベースのアクセラレータは、計算効率の低さ、メモリ帯域幅の活用不足、およびコンパイルのオーバーヘッドが大きいという未解決の課題のため、圧縮 LLM を効率的に処理できません。
この論文では、FPGA 上の完全なマッピング フローによる効率的な LLM 推論を可能にする FlightLLM を提案します。
FlightLLM では、FPGA 固有のリソース (DSP48 や異種メモリ階層など) を利用することで LLM の計算とメモリのオーバーヘッドを解決できるという革新的なソリューションを紹介します。
高い計算効率でさまざまなスパース パターンをサポートする、構成可能なスパース DSP チェーンを提案します。
2 番目に、混合精度のサポートによりメモリ帯域幅を向上させるための常時オンチップ デコード スキームを提案します。
最後に、FlightLLM を現実世界の LLM で利用できるようにするために、コンパイルのオーバーヘッドを削減する長さ適応型コンパイル方法を提案します。
Xilinx Alveo U280 FPGA に実装された FlightLLM は、vLLM と SmoothQuant を使用して、最新の LLM (LLaMA2-7B など) 上の商用 GPU (NVIDIA V100S など) と比較して 6.0 倍のエネルギー効率と 1.8 倍のコスト効率を達成します。
バッチサイズ 1 未満。
FlightLLM は、最新の Versal VHK158 FPGA を使用して、1.2$\times$ 高いスループットで NVIDIA A100 GPU を上回ります。
要約(オリジナル)
Transformer-based Large Language Models (LLMs) have made a significant impact on various domains. However, LLMs’ efficiency suffers from both heavy computation and memory overheads. Compression techniques like sparsification and quantization are commonly used to mitigate the gap between LLM’s computation/memory overheads and hardware capacity. However, existing GPU and transformer-based accelerators cannot efficiently process compressed LLMs, due to the following unresolved challenges: low computational efficiency, underutilized memory bandwidth, and large compilation overheads. This paper proposes FlightLLM, enabling efficient LLMs inference with a complete mapping flow on FPGAs. In FlightLLM, we highlight an innovative solution that the computation and memory overhead of LLMs can be solved by utilizing FPGA-specific resources (e.g., DSP48 and heterogeneous memory hierarchy). We propose a configurable sparse DSP chain to support different sparsity patterns with high computation efficiency. Second, we propose an always-on-chip decode scheme to boost memory bandwidth with mixed-precision support. Finally, to make FlightLLM available for real-world LLMs, we propose a length adaptive compilation method to reduce the compilation overhead. Implemented on the Xilinx Alveo U280 FPGA, FlightLLM achieves 6.0$\times$ higher energy efficiency and 1.8$\times$ better cost efficiency against commercial GPUs (e.g., NVIDIA V100S) on modern LLMs (e.g., LLaMA2-7B) using vLLM and SmoothQuant under the batch size of one. FlightLLM beats NVIDIA A100 GPU with 1.2$\times$ higher throughput using the latest Versal VHK158 FPGA.
arxiv情報
著者 | Shulin Zeng,Jun Liu,Guohao Dai,Xinhao Yang,Tianyu Fu,Hongyi Wang,Wenheng Ma,Hanbo Sun,Shiyao Li,Zixiao Huang,Yadong Dai,Jintao Li,Zehao Wang,Ruoyu Zhang,Kairui Wen,Xuefei Ning,Yu Wang |
発行日 | 2024-01-08 13:00:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google