BitDelta: Your Fine-Tune May Only Be Worth One Bit

要約

大規模言語モデル (LLM) は通常、大規模なインターネット規模のデータセットでの事前トレーニングと下流タスクの微調整の 2 つのフェーズでトレーニングされます。
事前トレーニングの計算需要が高いことを考えると、微調整によりモデルに追加される新しい情報が少なくなり、そのため圧縮性が高まると直感的に推測できます。
私たちは、微調整されたモデルの重みを事前トレーニングされたコンポーネントと追加のデルタに分解することで、この仮定を調査します。
ここでは、パフォーマンスを損なうことなくこのデルタを 1 ビットまで量子化する簡単なメソッド BitDelta を紹介します。
この興味深い発見は、微調整中に追加される情報の潜在的な冗長性を強調するだけでなく、微調整されたモデルのマルチテナント サービスとマルチテナント ストレージにも重要な意味を持ちます。
BitDelta は、複数の 1 ビット デルタを伴う単一の高精度ベース モデルの使用を可能にすることで、GPU メモリ要件を 10 分の 1 以上大幅に削減します。これは、マルチテナント設定での生成レイテンシーの強化にもつながります。
私たちは、Llama-2 および Mistral モデル ファミリ全体、および最大 70B パラメーターのモデルでの実験を通じて BitDelta を検証し、テストされたすべての設定でパフォーマンスの低下が最小限に抑えられていることを示しています。

要約(オリジナル)

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it’s intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.

arxiv情報

著者 James Liu,Guangxuan Xiao,Kai Li,Jason D. Lee,Song Han,Tri Dao,Tianle Cai
発行日 2024-02-15 18:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク