Conformal Prediction for Zero-Shot Models

要約

大規模に事前に訓練されたビジョン言語モデルは、下流タスクに対する前例のない適応性と一般化を示しています。
その差別的可能性は広く調査されていますが、その信頼性と不確実性はまだ見落とされています。
この作業では、スプリットコンフォーマル予測パラダイムの下でクリップモデルの機能を調査します。これは、小さなラベル付きのキャリブレーションセットに基づいて、ブラックボックスモデルに理論的保証を提供します。
視力分類器のコンフォーマル予測因子に関する文献の本体とは対照的に、基礎モデルは特定の特徴を示します。それらは、転送されたタスクとは異なるアクセスできないソースドメインで1回限りの訓練を受けています。
このドメインドリフトは、コンフォーマルセットの効率に悪影響を及ぼし、追加の課題をもたらします。
この問題を軽減するために、Conf-OTを提案します。これは、校正セットとクエリセットを順に導入する転送学習設定であることを提案します。
最適な輸送の問題を解決すると、提案された方法は、追加のデータ分割を必要とせずにトレーニング前と適応の間のドメインギャップを埋めますが、カバレッジ保証を維持します。
15のデータセットと3つの不適合スコアの広いスパンで、このコンフォーマル予測戦略を包括的に調査します。
conf-otは、一般的なトランスダクティブアプローチの15倍高速である一方で、セット効率で最大20%の一貫した相対的な改善を提供します。

要約(オリジナル)

Vision-language models pre-trained at large scale have shown unprecedented adaptability and generalization to downstream tasks. Although its discriminative potential has been widely explored, its reliability and uncertainty are still overlooked. In this work, we investigate the capabilities of CLIP models under the split conformal prediction paradigm, which provides theoretical guarantees to black-box models based on a small, labeled calibration set. In contrast to the main body of literature on conformal predictors in vision classifiers, foundation models exhibit a particular characteristic: they are pre-trained on a one-time basis on an inaccessible source domain, different from the transferred task. This domain drift negatively affects the efficiency of the conformal sets and poses additional challenges. To alleviate this issue, we propose Conf-OT, a transfer learning setting that operates transductive over the combined calibration and query sets. Solving an optimal transport problem, the proposed method bridges the domain gap between pre-training and adaptation without requiring additional data splits but still maintaining coverage guarantees. We comprehensively explore this conformal prediction strategy on a broad span of 15 datasets and three non-conformity scores. Conf-OT provides consistent relative improvements of up to 20% on set efficiency while being 15 times faster than popular transductive approaches.

arxiv情報

著者 Julio Silva-Rodríguez,Ismail Ben Ayed,Jose Dolz
発行日 2025-05-30 15:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク