Fine-tuning can cripple your foundation model; preserving features may be the solution

要約

事前トレーニングされた基礎モデルは、その膨大な容量と事前トレーニング中に膨大な量のデータにさらされるため、多くの現実世界の概念を学習していることが知られています。
これらの事前トレーニング済みモデルを下流タスクで効果的にするための重要なステップは、関連するデータセットでモデルを微調整することです。
さまざまな微調整方法が考案され、非常に効果的であることが示されていますが、微調整モデルが下流のタスク $\textit{異なる}$ の概念を認識する能力は、事前に比べて大幅に低下していることが観察されています。
-訓練された相手。
そもそもこれらの事前トレーニングされた概念を学習するためにかなりの量のリソースが使用されたため、これは微調整の望ましくない影響です。
私たちはこの現象を「概念の忘却」と呼び、ほとんどのエンドツーエンドの微調整アプローチがこの副作用に大きく悩まされることが実験によって示されています。
この目的を達成するために、ダウンストリームに関連する新しい概念を学習しながら、$\textit{LDIFS}$ (特徴空間における $\ell_2$ 距離の略) と呼ばれる新しい微調整メソッドを設計することで、この問題に対する簡単な修正を提案します。
タスクを使用すると、モデルが事前トレーニングされた知識を保存することもできます。
10 の微調整タスクに関する広範な実験を通じて、$\textit{LDIFS}$ が概念の忘却を大幅に減らすことを示しました。
さらに、微調整ベースラインと継続学習ベースラインの両方と比較して、LDIFS は一連のタスクで継続的な微調整を実行する場合にも非常に効果的であることを示します。

要約(オリジナル)

Pre-trained foundation models, due to their enormous capacity and exposure to vast amounts of data during pre-training, are known to have learned plenty of real-world concepts. An important step in making these pre-trained models effective on downstream tasks is to fine-tune them on related datasets. While various fine-tuning methods have been devised and have been shown to be highly effective, we observe that a fine-tuned model’s ability to recognize concepts on tasks $\textit{different}$ from the downstream one is reduced significantly compared to its pre-trained counterpart. This is an undesirable effect of fine-tuning as a substantial amount of resources was used to learn these pre-trained concepts in the first place. We call this phenomenon ”concept forgetting” and via experiments show that most end-to-end fine-tuning approaches suffer heavily from this side effect. To this end, we propose a simple fix to this problem by designing a new fine-tuning method called $\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) that, while learning new concepts related to the downstream task, allows a model to preserve its pre-trained knowledge as well. Through extensive experiments on 10 fine-tuning tasks we show that $\textit{LDIFS}$ significantly reduces concept forgetting. Additionally, we show that LDIFS is highly effective in performing continual fine-tuning on a sequence of tasks as well, in comparison with both fine-tuning as well as continual learning baselines.

arxiv情報

著者 Jishnu Mukhoti,Yarin Gal,Philip H. S. Torr,Puneet K. Dokania
発行日 2024-07-01 17:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク