Towards Calibrated Robust Fine-Tuning of Vision-Language Models

要約

ディストリビューション内 (ID) 適応を通じてディストリビューション外 (OOD) の一般化を改善することは、単純な微調整アプローチを超えた堅牢な微調整手法の主な目標です。
しかし、最近の堅牢な微調整手法による適切な OOD 一般化パフォーマンスにもかかわらず、信頼性の高い機械学習のための OOD 信頼度の調整は完全には取り組まれていません。
この研究では、ビジョン言語モデル (VLM) の OOD 精度とキャリブレーション誤差の両方を改善する堅牢な微調整方法を提案します。
まず、どちらのタイプの誤差にも、ID データの 2 つの項、1) 校正誤差、2) 入力共分散行列の最小特異値で構成される共通の上限があることを示します。
この洞察に基づいて、より大きな最小特異値を強制する制約付きマルチモーダルコントラスト損失で微調整を行う新しいフレームワークを設計します。これは、移動平均モデルの自己蒸留によってさらに支援され、適切に校正された予測を実現します。
理論的記述の経験的検証から始めて、私たちの方法の有効性を実証する ImageNet 分散シフト ベンチマークに関する広範な実験結果を提供します。

要約(オリジナル)

Improving out-of-distribution (OOD) generalization through in-distribution (ID) adaptation is a primary goal of robust fine-tuning methods beyond the naive fine-tuning approach. However, despite decent OOD generalization performance from recent robust fine-tuning methods, OOD confidence calibration for reliable machine learning has not been fully addressed. This work proposes a robust fine-tuning method that improves both OOD accuracy and calibration error in Vision Language Models (VLMs). Firstly, we show that both types of errors have a shared upper bound consisting of two terms of ID data: 1) calibration error and 2) the smallest singular value of the input covariance matrix. Based on this insight, we design a novel framework that conducts fine-tuning with a constrained multimodal contrastive loss enforcing a larger smallest singular value, which is further aided by the self-distillation of a moving averaged model to achieve well-calibrated prediction. Starting from an empirical validation of our theoretical statements, we provide extensive experimental results on ImageNet distribution shift benchmarks that demonstrate the effectiveness of our method.

arxiv情報

著者 Changdae Oh,Hyesu Lim,Mijoo Kim,Dongyoon Han,Sangdoo Yun,Jaegul Choo,Alexander Hauptmann,Zhi-Qi Cheng,Kyungwoo Song
発行日 2024-05-27 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク