Towards Calibrated Robust Fine-Tuning of Vision-Language Models

要約

ファインチューニングは、特定のタスクに対して事前に訓練されたモデルの潜在能力を解き放つ一方で、分布外(OOD)データセットに対するモデルの汎化能力を損なう。これを軽減するために、ロバストなファインチューニングは、OODデータセットと、モデルがチューニングされている分布内(ID)データセットでの性能を保証することを目的としている。しかし、信頼性の高い機械学習(ML)のためのもう一つの基準である信頼度校正は、現実の世界で大きなリスクを伴うMLアプリケーション(例えば、自律走行や医療診断)で需要が高まっているにもかかわらず、見過ごされてきた。我々は初めて、特にOODデータセット上で、素朴な微調整や、最新のロバストな微調整手法でさえ、事前に訓練されたVLMのキャリブレーションを損なうことを示すことで、分布シフト下での微調整された視覚言語モデル(VLM)のキャリブレーションに関する懸念を提起する。この問題に対処するため、我々は、IDデータセットとOODデータセットの両方において、キャリブレーションとロバスト性を促進する、キャリブレーションロバストファインチューニング(CaRot)と呼ばれるシンプルなアプローチを提供する。ImageNet-1K分布シフト評価における実証結果により、本手法の有効性を検証する。

要約(オリジナル)

While fine-tuning unlocks the potential of a pre-trained model for a specific task, it compromises the model’s ability to generalize to out-of-distribution (OOD) datasets. To mitigate this, robust fine-tuning aims to ensure performance on OOD datasets as well as on an in-distribution (ID) dataset for which the model is being tuned. However, another criterion for reliable machine learning (ML), confidence calibration, has been overlooked despite its increasing demand for real-world high-stakes ML applications (e.g., autonomous driving and medical diagnosis). For the first time, we raise concerns about the calibration of fine-tuned vision-language models (VLMs) under distribution shift by showing that naive fine-tuning and even state-of-the-art robust fine-tuning methods hurt the calibration of pre-trained VLMs, especially on OOD datasets. To address this issue, we provide a simple approach, called calibrated robust fine-tuning (CaRot), that incentivizes calibration and robustness on both ID and OOD datasets. Empirical results on ImageNet-1K distribution shift evaluation verify the effectiveness of our method.

arxiv情報

著者 Changdae Oh,Mijoo Kim,Hyesu Lim,Junhyeok Park,Euiseog Jeong,Zhi-Qi Cheng,Kyungwoo Song
発行日 2023-11-06 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク