SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture

要約

多くの努力がなされていますが、多くのアプリケーションでのトレーニング予算、下流のパフォーマンス、LLMの一般的な能力のバランスをとることは依然として困難です。
ダウンストリームタスクのモデル全体をトレーニングするのは高価であり、壊滅的な忘却を簡単に忘れる可能性があります。
パラメーター効率の高い微調整(PEFT)を導入することにより、トレーニングコストを削減することができますが、それでも忘却に苦しみ、下流のタスクで学習を制限します。
一般的な能力の忘れを軽減しながら、下流のパフォーマンスへの制限が少ないLLMSを効率的に微調整するために、ソフトロラとアイデンティティ混合(SLIM)に基づく専門家(MOE)フレームワークの新しい混合物を提案します。
アダプターと接続のスキップにより、忘却の抑制が可能になります。
スライディングクラスタリングでウェイトイールドを採用して、ドメイン外のより良い距離を区別してルーティングを強化します。
また、低ランクアダプターの混合物をモデルの融合式に変換し、LORAアダプターの高速動的マージを導入して、ベースモデルの一般的な機能を維持することを提案します。
広範な実験は、提案されたスリムが、壊滅的な忘却を緩和する際に主要なパフォーマンスを達成しながら、下流タスクの最先端のPEFTアプローチに匹敵することを示しています。

要約(オリジナル)

Although many efforts have been made, it is still a challenge to balance the training budget, downstream performance, and the general capabilities of the LLMs in many applications. Training the whole model for downstream tasks is expensive, and could easily result in catastrophic forgetting. By introducing parameter-efficient fine-tuning (PEFT), the training cost could be reduced, but it still suffers from forgetting, and limits the learning on the downstream tasks. To efficiently fine-tune the LLMs with less limitation to their downstream performance while mitigating the forgetting of general capabilities, we propose a novel mixture of expert (MoE) framework based on Soft LoRA and Identity Mixture (SLIM), that allows dynamic routing between LoRA adapters and skipping connection, enables the suppression of forgetting. We adopt weight-yielding with sliding clustering for better out-of-domain distinguish to enhance the routing. We also propose to convert the mixture of low-rank adapters to the model merging formulation and introduce fast dynamic merging of LoRA adapters to keep the general capabilities of the base model. Extensive experiments demonstrate that the proposed SLIM is comparable to the state-of-the-art PEFT approaches on the downstream tasks while achieving the leading performance in mitigating catastrophic forgetting.

arxiv情報

著者 Jiayi Han,Liang Du,Hongwei Du,Xiangguo Zhou,Yiwen Wu,Weibo Zheng,Donghong Han
発行日 2025-01-28 09:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク