Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models

要約

機械学習モデルを実世界に安全に展開するためには、信頼性の校正が重要である。しかし、CLIPのような視覚言語モデルにおけるこのような問題は、特にファインチューニングの後では、十分に対処されていない。一方、KgCoOpの正則化は、信頼度を維持するが、精度が向上するため、基本クラスの信頼度が低下する。この観察結果にヒントを得て、我々は動的外れ値正則化(Dynamic Outlier Regularization: DOR)を導入し、微調整後の基本クラスと新クラスの両方における信頼度の較正を保証する。特に、大規模な語彙からサンプリングされた(基本クラスではなく)新しいテキストラベルの特徴偏差を最小化することを提案する。事実上、DORは、基本クラスに対する制約を緩和する一方で、新しいラベルに対するテキスト発散の増大を防ぐ。広範な実験により、DORは基本クラスと新規クラスに対する現在の微調整手法の適合性能を向上できることが実証された。

要約(オリジナル)

Confidence calibration is critical for the safe deployment of machine learning models in the real world. However, such issue in vision-language models like CLIP, particularly after fine-tuning, has not been fully addressed. In this work, we demonstrate that existing prompt tuning methods usually lead to a trade-off of calibration between base and new classes: the cross-entropy loss in CoOp causes overconfidence in new classes by increasing textual label divergence, whereas the regularization of KgCoOp maintains the confidence level but results in underconfidence in base classes due to the improved accuracy. Inspired by the observations, we introduce Dynamic Outlier Regularization (DOR) to ensure the confidence calibration on both base and new classes after fine-tuning. In particular, we propose to minimize the feature deviation of novel textual labels (instead of base classes) sampled from a large vocabulary. In effect, DOR prevents the increase in textual divergence for new labels while easing restrictions on base classes. Extensive experiments demonstrate that DOR can enhance the calibration performance of current fine-tuning methods on base and new classes.

arxiv情報

著者 Shuoyuan Wang,Yixuan Li,Hongxin Wei
発行日 2024-10-03 17:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク