An Empirical Study Into What Matters for Calibrating Vision-Language Models

要約

ビジョン言語モデル (VLM) は、ゼロショット認識の主要なアプローチとして台頭しており、多様なシナリオや大幅な分布の変化の処理に優れています。
ただし、リスクに敏感な領域にそれらを導入するには、比較的未知の領域である不確実性推定機能についての深い理解が必要です。
この研究では、さまざまなアーキテクチャ、データセット、トレーニング戦略にわたる VLM のキャリブレーション特性を調査します。
特に、あるドメイン、ラベル セット、または階層レベルで校正され、別のドメインでテストされた場合の VLM の不確実性推定パフォーマンスを分析します。
私たちの調査結果では、VLM は本質的に不確実性を考慮して校正されていないものの、分布の変化やラベル セットの変更があっても、温度スケーリングにより校正が大幅かつ一貫して改善されることが明らかになりました。
さらに、VLM は非常に少数の例のセットで校正できます。
詳細な実験を通じて、潜在的なアプリケーションと洞察の重要性を強調し、現実世界の重要なシナリオで VLM をより信頼性が高く効果的に使用することを目指しています。

要約(オリジナル)

Vision–Language Models (VLMs) have emerged as the dominant approach for zero-shot recognition, adept at handling diverse scenarios and significant distribution changes. However, their deployment in risk-sensitive areas requires a deeper understanding of their uncertainty estimation capabilities, a relatively uncharted area. In this study, we explore the calibration properties of VLMs across different architectures, datasets, and training strategies. In particular, we analyze the uncertainty estimation performance of VLMs when calibrated in one domain, label set or hierarchy level, and tested in a different one. Our findings reveal that while VLMs are not inherently calibrated for uncertainty, temperature scaling significantly and consistently improves calibration, even across shifts in distribution and changes in label set. Moreover, VLMs can be calibrated with a very small set of examples. Through detailed experimentation, we highlight the potential applications and importance of our insights, aiming for more reliable and effective use of VLMs in critical, real-world scenarios.

arxiv情報

著者 Weijie Tu,Weijian Deng,Dylan Campbell,Stephen Gould,Tom Gedeon
発行日 2024-02-12 05:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク