Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

要約

オープンウェイト大規模言語モデル (LLM) が英語の幅広いタスクにわたってこれまで以上に優れたパフォーマンスを達成するにつれて、実践者はこれらのモデルをさまざまな言語に適応させることを目指しています。
ただし、このような言語適応は、基本モデルの機能の壊滅的な忘れを伴うことが多く、結果として得られるモデルの有用性が大幅に制限されます。
私たちは、複数のモデルを繰り返しマージし、利用可能なトレーニング データのサブセットに基づいて微調整することに基づく新しい適応方法であるブランチ アンド マージ (BaM) を提案することで、この問題に対処します。
BaM は、これにより、大きさは低いが高品質の重み変更が得られ、ターゲット ドメインの学習を維持しながらソース ドメインの忘却を減らすという洞察に基づいています。
私たちは、ブルガリア語とドイツ語に関する広範な実証研究で、BaM が、標準的な継続的な事前トレーニングとさまざまなモデル アーキテクチャにわたる命令の微調整の両方と比較して、ターゲット ドメインのパフォーマンスを一致させ、さらには向上させながら、忘却を大幅に削減できることを示しています。

要約(オリジナル)

As open-weight large language models (LLMs) achieve ever more impressive performances across a wide range of tasks in English, practitioners aim to adapt these models to different languages. However, such language adaptation is often accompanied by catastrophic forgetting of the base model’s capabilities, severely limiting the usefulness of the resulting model. We address this issue by proposing Branch-and-Merge (BaM), a new adaptation method based on iteratively merging multiple models, fine-tuned on a subset of the available training data. BaM is based on the insight that this yields lower magnitude but higher quality weight changes, reducing forgetting of the source domain while maintaining learning on the target domain. We demonstrate in an extensive empirical study on Bulgarian and German that BaM can significantly reduce forgetting while matching or even improving target domain performance compared to both standard continued pretraining and instruction finetuning across different model architectures.

arxiv情報

著者 Anton Alexandrov,Veselin Raychev,Mark Niklas Müller,Ce Zhang,Martin Vechev,Kristina Toutanova
発行日 2024-07-11 17:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク