One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments

要約

大規模言語モデル (LLM) は急速に進歩していますが、大量のメモリ需要に直面しています。
量子化は LLM にとって有望であることが示されていますが、現在の方法では通常、量子化損失によるパフォーマンスの低下を軽減するために長時間のトレーニングが必要です。
ただし、サーバーやパーソナル コンピューターなど、リソースの制約が異なるさまざまなシナリオに LLM を導入するには、アプリケーションごとにトレーニングを繰り返す必要があり、トレーニングに時間がかかるという問題がさらに大きくなります。
それを考慮すると、ワンショット トレーニングを通じてダウンストリーム アプリケーションに最適な多様なサブネットを生成できるワンス フォー オール (OFA) スーパーネットをトレーニングすることが有利です。
それにもかかわらず、現在の言語モデルの規模は効率を妨げ、サブネット間の重み共有による干渉を増幅させます。
私たちは、一度限りのフレームワークを大規模な言語モデルに拡張するという最初の試みを行います。
具体的には、共有ウェイトを分離して干渉を排除し、トレーニング効率を高めるために低ランク アダプターを組み込みます。
さらに、従来の均一なサンプリングからはトレーニング リソースの不均衡な割り当てが観察されます。
ノンパラメトリック スケジューラは、各量子化構成のサンプリング レートを調整するために導入され、さまざまな要求を持つサブネット間でよりバランスのとれた割り当てを実現します。
私たちは LLaMA2 ファミリに対するアプローチを検証し、ダウンストリームの評価により、複数のシナリオに直面した導入時間を大幅に短縮しながら、高いパフォーマンスを維持できる能力が確認されました。

要約(オリジナル)

Large Language Models (LLMs) have advanced rapidly but face significant memory demands. While quantization has shown promise for LLMs, current methods typically require lengthy training to alleviate the performance degradation from quantization loss. However, deploying LLMs across diverse scenarios with different resource constraints, e.g., servers and personal computers, requires repeated training per application, which amplifies the lengthy training problem. Given that, it is advantageous to train a once-for-all (OFA) supernet capable of yielding diverse optimal subnets for downstream applications through one-shot training. Nonetheless, the scale of current language models impedes efficiency and amplifies interference from weight sharing between subnets. We make an initial attempt to extend the once-for-all framework to large language models. Specifically, we decouple shared weights to eliminate the interference and incorporate Low-Rank adapters for training efficiency. Furthermore, we observe the imbalance allocation of training resources from the traditional uniform sampling. A non-parametric scheduler is introduced to adjust the sampling rate for each quantization configuration, achieving a more balanced allocation among subnets with varying demands. We validate the approach on LLaMA2 families, and downstream evaluation confirms our ability to maintain high performance while significantly reducing deployment time faced with multiple scenarios.

arxiv情報

著者 Ke Yi,Yuhui Xu,Heng Chang,Chen Tang,Yuan Meng,Tong Zhang,Jia Li
発行日 2024-05-30 16:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク