要約
大規模言語モデル (LLM) はさまざまなアプリケーションで広く使用されていますが、その膨大な計算要件により、特に HBM 帯域幅のボトルネックとデバイス間通信のオーバーヘッドの点で重大な課題が生じています。
この論文では、モデルの重みと KV キャッシュのメモリ読み取りを集団通信操作とオーバーラップさせることで LLM 推論を最適化するように設計された新しいプリフェッチ フレームワークである PRESERVE を紹介します。
商用 AI アクセラレータで行われた広範な実験を通じて、最先端のオープンソース LLM で最大 1.6 倍のエンドツーエンドの高速化を実証しました。
さらに、提案された方法に最適なハードウェア構成を特定する設計空間の探索を実行し、最適な L2 キャッシュ サイズを選択することでコストあたりのパフォーマンスがさらに 1.25 倍向上することがわかりました。
私たちの結果は、PRESERVE にはメモリのボトルネックと通信オーバーヘッドを軽減する可能性があり、LLM 推論システムのパフォーマンスとスケーラビリティを向上させるソリューションを提供することを示しています。
要約(オリジナル)
Large language models (LLMs) are widely used across various applications, but their substantial computational requirements pose significant challenges, particularly in terms of HBM bandwidth bottlenecks and inter-device communication overhead. In this paper, we present PRESERVE, a novel prefetching framework designed to optimize LLM inference by overlapping memory reads for model weights and KV-cache with collective communication operations. Through extensive experiments conducted on commercial AI accelerators, we demonstrate up to 1.6x end-to-end speedup on state-of-the-art, open-source LLMs. Additionally, we perform a design space exploration that identifies the optimal hardware configuration for the proposed method, showing a further 1.25x improvement in performance per cost by selecting the optimal L2 cache size. Our results show that PRESERVE has the potential to mitigate the memory bottlenecks and communication overheads, offering a solution to improve the performance and scalability of the LLM inference systems.
arxiv情報
著者 | Ahmet Caner Yüzügüler,Jiawei Zhuang,Lukas Cavigelli |
発行日 | 2025-01-14 15:14:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google