Speciality vs Generality: An Empirical Study on Catastrophic Forgetting in Fine-tuning Foundation Models

要約

ビジョン言語モデル (VLM) や大規模言語モデル (LLM) などの基盤モデルは、広範な事前トレーニング データセットに由来する、多様な分布やタスクを処理するための $汎用性 $ を備えています。
基礎モデルの微調整は、タスクのパフォーマンスを向上させたり、モデルの動作を人間の期待に合わせて調整したりして、$speciality$ を獲得できるようにするための一般的な方法です。
ただし、微調整に使用される小さなデータセットでは、事前トレーニング中に遭遇する多様な分布やタスクを適切にカバーできない可能性があります。
その結果、微調整中に専門性を追求すると、モデルの {一般性} が失われる可能性があり、これは深層学習における壊滅的忘却 (CF) に関連します。
この研究では、VLM と LLM の両方でこの現象を実証します。
たとえば、ImageNet 上で CLIP のような VLM を微調整すると、多様なディストリビューションを処理する際の汎用性が失われ、医療分野で Galactica のような LLM を微調整すると、指示や常識に従うことができなくなります。
専門性と一般性の間のトレードオフに対処するために、継続学習からの複数の正則化手法、分布外 (OOD) 一般化からの重み平均法 (Wise-FT) を調査します。これは、事前トレーニング済みと詳細の間のパラメータを補間します。
-調整されたモデル、および低ランク適応 (LoRA) のようなパラメーター効率の高い微調整方法。
私たちの調査結果は、継続学習と Wise-ft 手法の両方が一般性の損失を効果的に軽減し、Wise-FT が専門性と一般性のバランスにおいて最も優れたパフォーマンスを示していることを示しています。

要約(オリジナル)

Foundation models, including Vision Language Models (VLMs) and Large Language Models (LLMs), possess the $generality$ to handle diverse distributions and tasks, which stems from their extensive pre-training datasets. The fine-tuning of foundation models is a common practice to enhance task performance or align the model’s behavior with human expectations, allowing them to gain $speciality$. However, the small datasets used for fine-tuning may not adequately cover the diverse distributions and tasks encountered during pre-training. Consequently, the pursuit of speciality during fine-tuning can lead to a loss of {generality} in the model, which is related to catastrophic forgetting (CF) in deep learning. In this study, we demonstrate this phenomenon in both VLMs and LLMs. For instance, fine-tuning VLMs like CLIP on ImageNet results in a loss of generality in handling diverse distributions, and fine-tuning LLMs like Galactica in the medical domain leads to a loss in following instructions and common sense. To address the trade-off between the speciality and generality, we investigate multiple regularization methods from continual learning, the weight averaging method (Wise-FT) from out-of-distributional (OOD) generalization, which interpolates parameters between pre-trained and fine-tuned models, and parameter-efficient fine-tuning methods like Low-Rank Adaptation (LoRA). Our findings show that both continual learning and Wise-ft methods effectively mitigate the loss of generality, with Wise-FT exhibiting the strongest performance in balancing speciality and generality.

arxiv情報

著者 Yong Lin,Lu Tan,Hangyu Lin,Zeming Zheng,Renjie Pi,Jipeng Zhang,Shizhe Diao,Haoxiang Wang,Han Zhao,Yuan Yao,Tong Zhang
発行日 2023-09-12 14:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク