要約
ダウンストリーム タスク用に大規模言語モデル (LLM) を微調整すると、モデルの品質が大幅に向上しますが、マルチテナント環境のユーザーに対して、微調整された多数の異なる LLM を同時に提供することは困難です。
各モデル専用の GPU メモリは法外に高価であり、大規模なモデルの重みを GPU メモリに入れたり、GPU メモリから取り替えたりするのは単純に時間がかかります。
私たちの重要な洞察は、各モデルと事前トレーニングされたベース モデル間のデルタを抽出および圧縮することにより、微調整されたモデルを GPU メモリにすばやくスワップインおよび GPU メモリからスワップアウトできるということです。
私たちは、高いモデル品質を維持しながら、$6\times$ から $8\times$ の係数でモデル デルタを積極的に圧縮することで、複数のフルパラメータで微調整されたモデルを同時に効率的に提供する LLM 提供システムである DeltaZip を提案します。
DeltaZip は、標準の HuggingFace サービス システムと比較して、サービス スループットを $1.5\times$ から $3\time$ 増加させ、SLO 達成を向上させます。
要約(オリジナル)
Fine-tuning large language models (LLMs) for downstream tasks can greatly improve model quality, however serving many different fine-tuned LLMs concurrently for users in multi-tenant environments is challenging. Dedicating GPU memory for each model is prohibitively expensive and naively swapping large model weights in and out of GPU memory is slow. Our key insight is that fine-tuned models can be quickly swapped in and out of GPU memory by extracting and compressing the delta between each model and its pre-trained base model. We propose DeltaZip, an LLM serving system that efficiently serves multiple full-parameter fine-tuned models concurrently by aggressively compressing model deltas by a factor of $6\times$ to $8\times$ while maintaining high model quality. DeltaZip increases serving throughput by $1.5\times$ to $3\times$ and improves SLO attainment compared to a vanilla HuggingFace serving system.
arxiv情報
著者 | Xiaozhe Yao,Ana Klimovic |
発行日 | 2023-12-08 18:07:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google