BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation

要約

大規模な事前トレーニング済みビジョン言語モデル (VLM) の出現は、機械学習におけるパラダイム シフトを表しており、広範囲の視覚認識タスクにおいて前例のない結果が得られます。
最も人気のある VLM の 1 つである CLIP は、分類において顕著なゼロショットおよび転移学習機能を示しています。
CLIP をダウンストリーム タスクに転送するために、アダプターは、(関連するプロンプト学習方法とは異なり) 大規模なモデルを介した逆伝播を回避するパラメーター効率の高いアプローチを構成します。
ただし、CLIP アダプターは識別性能を目的として開発されており、その不確実性推定の品質は無視されてきました。
この研究では、最先端の CLIP アダプターの優れたパフォーマンスが、現実世界のシナリオで安全に導入するために不可欠な不確実性推定機能と必ずしも相関するとは限らないことを示します。
また、そのようなアダプターの 1 つが、より一般的な確率的フレームワークからの MAP 推論を通じて取得されることも示します。
この観察に基づいて、ベイズ推論を活用して単一点ではなく完全な確率分布を推定し、パラメーター空間に固有の変動性をより適切に捕捉する BayesAdapter を導入します。
包括的な経験的評価では、私たちのアプローチが予測において高品質な不確実性推定値を取得し、キャリブレーションと選択的分類において際立っていることを示します。
私たちのコードは論文が受理され次第公開されます。

要約(オリジナル)

The emergence of large pre-trained vision-language models (VLMs) represents a paradigm shift in machine learning, with unprecedented results in a broad span of visual recognition tasks. CLIP, one of the most popular VLMs, has exhibited remarkable zero-shot and transfer learning capabilities in classification. To transfer CLIP to downstream tasks, adapters constitute a parameter-efficient approach that avoids backpropagation through the large model (unlike related prompt learning methods). However, CLIP adapters have been developed to target discriminative performance, and the quality of their uncertainty estimates has been overlooked. In this work we show that the discriminative performance of state-of-the-art CLIP adapters does not always correlate with their uncertainty estimation capabilities, which are essential for a safe deployment in real-world scenarios. We also demonstrate that one of such adapters is obtained through MAP inference from a more general probabilistic framework. Based on this observation we introduce BayesAdapter, which leverages Bayesian inference to estimate a full probability distribution instead of a single point, better capturing the variability inherent in the parameter space. In a comprehensive empirical evaluation we show that our approach obtains high quality uncertainty estimates in the predictions, standing out in calibration and selective classification. Our code will be publicly available upon acceptance of the paper.

arxiv情報

著者 Pablo Morales-Álvarez,Stergios Christodoulidis,Maria Vakalopoulou,Pablo Piantanida,Jose Dolz
発行日 2025-01-13 14:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク