要約
多くの場合、専用のハードウェアを必要とする事前処理言語モデル(PLMS)の重要な計算需要は、特にマルチテナント環境で効率的に提供する上で大きな課題を提示します。
これに対処するために、異なるPLMSリソース効率を持つテナントを管理するように設計された階層的ナレッジマネジメントベースのマルチテナント推論システムであるHMIを紹介します。
私たちのアプローチは3つあります。まず、PLMの知識を一般、ドメイン固有、およびタスク固有に分類します。
さまざまなモデルレイヤー間の知識習得に関する洞察を活用して、知識をさまざまなレベルで抽出および保存することにより、階層PLM(HPLMS)を構築し、テナントあたりのGPUメモリ使用量を大幅に削減します。
第二に、HMIのさまざまなテナントによって生成されたHPLMの階層的な知識管理を確立します。
頻度に基づいてドメイン固有の知識ツリーを構築および更新することにより、許容可能なストレージの増加でドメイン固有の知識を管理します。
パラメータースワッピングを介して、限られたGPUメモリ内でタスク固有の知識を管理します。
最後に、リソースの利用と推論のスループットを強化するためのシステムの最適化を提案します。
これらには、CPUとI/O操作がGPU計算とオーバーラップするための階層的な知識を介した微細に粒のパイプライニング、およびバッチ付きマトリックス乗算で並列実装を最適化することが含まれます。
私たちの実験結果は、提案されたHMIが単一のGPUで最大10,000 HPLM(HbertsおよびHGPTS)を効率的に提供できることを示しています。
要約(オリジナル)
The significant computational demands of pretrained language models (PLMs), which often require dedicated hardware, present a substantial challenge in serving them efficiently, especially in multi-tenant environments. To address this, we introduce HMI, a Hierarchical knowledge management-based Multi-tenant Inference system, designed to manage tenants with distinct PLMs resource-efficiently. Our approach is three-fold: Firstly, we categorize PLM knowledge into general, domain-specific, and task-specific. Leveraging insights on knowledge acquisition across different model layers, we construct hierarchical PLMs (hPLMs) by extracting and storing knowledge at different levels, significantly reducing GPU memory usage per tenant. Secondly, we establish hierarchical knowledge management for hPLMs generated by various tenants in HMI. We manage domain-specific knowledge with acceptable storage increases by constructing and updating domain-specific knowledge trees based on frequency. We manage task-specific knowledge within limited GPU memory through parameter swapping. Finally, we propose system optimizations to enhance resource utilization and inference throughput. These include fine-grained pipelining via hierarchical knowledge prefetching to overlap CPU and I/O operations with GPU computations, and optimizing parallel implementations with batched matrix multiplications. Our experimental results demonstrate that the proposed HMI can efficiently serve up to 10,000 hPLMs (hBERTs and hGPTs) on a single GPU, with only a negligible compromise in accuracy.
arxiv情報
著者 | Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Qin Xie,Guiming Xie,Xuejian Gong |
発行日 | 2025-04-24 11:28:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google