要約
最近、大規模言語モデル (LLM) は、幅広いタスクにおいて顕著な機能を実証しています。
通常、LLM は大規模なコーパスで事前トレーニングされ、その後タスク固有のデータセットで微調整されます。
ただし、微調整中に、LLM は事前トレーニング段階で取得した知識を忘れてしまい、一般的な能力の低下につながる可能性があります。
この問題に対処するために、Momentum-Filtered Optimizer (MoFO) と呼ばれる新しい微調整アルゴリズムを提案します。
MoFO の重要なアイデアは、最大の運動量の大きさを持つモデル パラメーターを繰り返し選択して更新することです。
フルパラメータ トレーニングと比較して、MoFO はパラメータを事前トレーニングされたモデルに近づけながら、同様の微調整パフォーマンスを実現するため、知識の忘却を軽減します。
忘れ物を軽減するための既存のほとんどの方法とは異なり、MoFO は次の 2 つの利点を組み合わせています。
まず、MoFO は事前トレーニング データにアクセスする必要がありません。
このため、MoFO は、チェックポイントのみのオープンソース LLM の微調整など、事前トレーニング データが利用できない場合の微調整シナリオに特に適しています。
第 2 に、MoFO は元の損失関数を変更しません。
これにより、微調整タスクでのモデルのパフォーマンスの低下を回避できます。
当社は厳密な収束解析と広範な実験を通じて MoFO を検証し、忘却の軽減と微調整パフォーマンスの強化において既存の方法よりも MoFO が優れていることを実証しています。
要約(オリジナル)
Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during finetuning, LLMs may forget the knowledge acquired in the pretraining stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.
arxiv情報
著者 | Yupeng Chen,Senmiao Wang,Zhihang Lin,Zeyu Qin,Yushun Zhang,Tian Ding,Ruoyu Sun |
発行日 | 2024-07-30 17:38:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google