要約
大規模言語モデル (LLM) は、強力な汎用言語機能を示します。
ただし、ドメイン固有のタスクでこれらのモデルを微調整すると、モデルが事前トレーニング中に取得した重要な知識を上書きしたり失ったりする、壊滅的な忘却につながることがよくあります。
この現象は、LLM の広範な適用性を大幅に制限します。
この課題に対処するために、微調整中に一般知識を保持するために重要なモデル パラメーターの要素ごとの重要性を計算する新しいアプローチを提案します。
私たちの方法は、二重目的の最適化戦略を利用します。(1) 一般知識にとって重要なパラメータを保持するための正則化損失。
(2) ドメイン固有のタスクに適応するためのクロスエントロピー損失。
さらに、レイヤーごとの係数を導入して、さまざまなレイヤーのさまざまな寄与を考慮し、二重目的の最適化の動的バランスをとります。
GPT-J と LLaMA-3 を使用した科学、医療、物理的タスクに関する広範な実験により、私たちのアプローチがモデルの適応性を高めながら壊滅的な忘却を軽減することが実証されました。
以前の方法と比較して、私たちのソリューションは約 20 倍高速で、必要なストレージは 10% ~ 15% のみであり、実用的な効率が際立っています。
コードが公開されます。
要約(オリジナル)
Large Language Models (LLMs) exhibit strong general-purpose language capabilities. However, fine-tuning these models on domain-specific tasks often leads to catastrophic forgetting, where the model overwrites or loses essential knowledge acquired during pretraining. This phenomenon significantly limits the broader applicability of LLMs. To address this challenge, we propose a novel approach to compute the element-wise importance of model parameters crucial for preserving general knowledge during fine-tuning. Our method utilizes a dual-objective optimization strategy: (1) regularization loss to retain the parameter crucial for general knowledge; (2) cross-entropy loss to adapt to domain-specific tasks. Additionally, we introduce layer-wise coefficients to account for the varying contributions of different layers, dynamically balancing the dual-objective optimization. Extensive experiments on scientific, medical, and physical tasks using GPT-J and LLaMA-3 demonstrate that our approach mitigates catastrophic forgetting while enhancing model adaptability. Compared to previous methods, our solution is approximately 20 times faster and requires only 10%-15% of the storage, highlighting the practical efficiency. The code will be released.
arxiv情報
著者 | Shezheng Song,Hao Xu,Jun Ma,Shasha Li,Long Peng,Qian Wan,Xiaodong Liu,Jie Yu |
発行日 | 2025-01-23 13:54:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google