要約
微調整はおそらく、事前トレーニングされたモデル (基礎モデルなど) を下流のアプリケーションに合わせて調整する最も簡単な方法ですが、事前トレーニングでモデルが学習した貴重な知識が失われるリスクも伴います。
たとえば、多数のクラスを認識できる事前トレーニング済み分類器を微調整して、手元のクラスのサブセットを習得すると、以前に学習した他のクラスにおけるモデルの精度が大幅に低下することが示されています。
そのため、微調整データを超えるクラスに遭遇した場合、微調整モデルをさらに使用することは困難です。
この論文では、「微調整モデルで何が損傷しているのか?」という基本的な質問に答えることを目的として、この問題を体系的に分析しています。驚いたことに、微調整モデルは、次の関係を忘れていないことがわかりました。
他のクラスも、これらのクラスを認識する機能を低下させません。
代わりに、微調整されたモデルは、たとえ微調整中に欠落していたとしても、これらの他のクラスに対してより識別可能な特徴を生成することがよくあります。
{実際に精度を損なうのは、微調整クラスと他のクラスとの間のロジット スケールの不一致です}。これは、単純な後処理キャリブレーションによって、事前トレーニングされたモデルの機能が回復し、同時に、以前よりも機能が向上していることが明らかになることを意味します。
すべてのクラス。
私たちは、結果の堅牢性を実証するために広範な実証研究を実施し、その基礎となる予備的な説明を提供し、将来の理論分析の新しい方向性を示唆します。
私たちのコードは https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated で入手できます。
要約(オリジナル)
Fine-tuning is arguably the most straightforward way to tailor a pre-trained model (e.g., a foundation model) to downstream applications, but it also comes with the risk of losing valuable knowledge the model had learned in pre-training. For example, fine-tuning a pre-trained classifier capable of recognizing a large number of classes to master a subset of classes at hand is shown to drastically degrade the model’s accuracy in the other classes it had previously learned. As such, it is hard to further use the fine-tuned model when it encounters classes beyond the fine-tuning data. In this paper, we systematically dissect the issue, aiming to answer the fundamental question, ”What has been damaged in the fine-tuned model?” To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes. Instead, the fine-tuned model often produces more discriminative features for these other classes, even if they were missing during fine-tuning! {What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes}, implying that a simple post-processing calibration would bring back the pre-trained model’s capability and at the same time unveil the feature improvement over all classes. We conduct an extensive empirical study to demonstrate the robustness of our findings and provide preliminary explanations underlying them, suggesting new directions for future theoretical analysis. Our code is available at https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated.
arxiv情報
著者 | Zheda Mai,Arpita Chowdhury,Ping Zhang,Cheng-Hao Tu,Hong-You Chen,Vardaan Pahuja,Tanya Berger-Wolf,Song Gao,Charles Stewart,Yu Su,Wei-Lun Chao |
発行日 | 2024-09-24 16:35:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google