DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs

要約

大型言語モデル(LLMS)を微調整すると、ダウンストリームタスクのモデル品質が大幅に向上します。
ただし、多くの微調整されたLLMSを同時に提供することは、異なるLLMの散発的で破裂した、さまざまな要求パターンのために挑戦的です。
このギャップを埋めるために、高モデルの品質を維持しながらモデルデルタを最大10倍に積極的に圧縮することにより、複数のフルパラメーターの微調整されたモデルを同時に効率的に提供するLLMサービングシステムであるDeltazipを紹介します。
この設計の背後にある重要な洞察は、微調整が事前に訓練されたモデルにわずかな変化をもたらすことです。
サービングシステムを圧縮アルゴリズムと共同設計することにより、Deltazipは最先端のシステムと比較して2倍から12倍のスループットの改善を達成します。

要約(オリジナル)

Fine-tuning large language models (LLMs) greatly improves model quality for downstream tasks. However, serving many fine-tuned LLMs concurrently is challenging due to the sporadic, bursty, and varying request patterns of different LLMs. To bridge this gap, we present DeltaZip, an LLM serving system that efficiently serves multiple full-parameter fine-tuned models concurrently by aggressively compressing model deltas by up to 10x while maintaining high model quality. The key insight behind this design is that fine-tuning results in small-magnitude changes to the pre-trained model. By co-designing the serving system with the compression algorithm, DeltaZip achieves 2x to 12x improvement in throughput compared to the state-of-the-art systems.

arxiv情報

著者 Xiaozhe Yao,Qinghao Hu,Ana Klimovic
発行日 2025-03-25 14:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク