Glinthawk: A Two-Tiered Architecture for Offline LLM Inference

要約

オフラインの大手言語モデル(LLM)推論のアーキテクチャであるGlinThawkを紹介します。
2層構造を活用することにより、Glinthawkは、ローエンドの計算層( ‘Tier 2’)に注意メカニズムをオフロードすることにより、ハイエンドアクセラレータ(「ティア1」)の利用を最適化します。
この分離により、キー価値キャッシュとして知られる注意のメモリ需要は、モデルの重みから独立してスケーリングし、より大きなバッチサイズとより効率的なアクセラレータの使用を可能にします。
NVIDIA T4 GPUおよび標準のCPU VMSでプロトタイプ化されたGlinThawkは、ページングの注意ベースラインと比較して、スループットが5.9 \ Times $を$ 5.9 \ Times $で改善し、2.8 \ Times $を削減します。
シーケンスの長さの長さの場合、$ 16.3 \ Times $のスループットの改善が2.4 \ Times $コストの低いと達成されます。
私たちの評価は、このアーキテクチャがパフォーマンスの低下を最小限に抑えて中程度のネットワーク遅延に耐えることができ、バッチ処理などのレイテンシ耐性のスループット中心のアプリケーションに非常に効果的であることを示しています。
このプロトタイプは、https://github.com/microsoft/glinthawkで公開されています。

要約(オリジナル)

We introduce Glinthawk, an architecture for offline Large Language Model (LLM) inference. By leveraging a two-tiered structure, Glinthawk optimizes the utilization of the high-end accelerators (‘Tier 1’) by offloading the attention mechanism to lower-end compute tier (‘Tier 2’). This separation allows the memory demand of the attention, known as the key-value cache, to scale independently from the model weights, enabling larger batch sizes and more efficient accelerator usage. Prototyped with NVIDIA T4 GPUs and standard CPU VMs, Glinthawk improves throughput by $5.9\times$ and reduces cost of generation by $2.8\times$, compared to paged attention baselines. For long sequence lengths, it achieves $16.3\times$ throughput improvement at $2.4\times$ less cost. Our evaluation shows that this architecture can tolerate moderate network latency with minimal performance degradation, making it highly effective for latency-tolerant, throughput-focused applications such as batch processing. The prototype is publicly available at https://github.com/microsoft/glinthawk.

arxiv情報

著者 Pouya Hamadanian,Sadjad Fouladi
発行日 2025-02-11 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PF パーマリンク