On Calibration and Conformal Prediction of Deep Classifiers

要約

多くの分類アプリケーションでは、ディープ ニューラル ネットワーク (DNN) ベースの分類器の予測に、何らかの信頼度の指標を伴う必要があります。
その目的のための 2 つの一般的な後処理アプローチは次のとおりです。 1) キャリブレーション: 分類子のソフトマックス値を変更して、その最大値 (予測に関連する) が正確性の確率をより適切に推定するようにします。
2) 等角予測 (CP): 正しいクラスの限界範囲を理論的に保証された予測セットが生成されるスコア (ソフトマックス値に基づく) を考案します。
実際には両方のタイプの兆候が望ましい可能性がありますが、これまでのところ、それらの間の相互作用は調査されていません。
このギャップを埋めるために、この論文では、おそらく最も一般的な校正手法である温度スケーリングが、著名な CP 手法に及ぼす影響を研究します。
まず、広範な実証研究から始めます。この研究では、驚くべきことに、キャリブレーションが一般的な適応 CP 手法に悪影響を及ぼし、予測セットが大きくなることがよくあることを示しています。
次に、この動作を理論的に分析します。
手順のいくつかの数学的特性を明らかにし、それに従って現象の推論を提供します。
私たちの研究は、温度スケーリング校正の前(またはキャンセル後)のソフトマックス値に基づいて、条件付きカバレッジを強化するために選択された適応 CP 手法を利用する価値がある可能性があることを示唆しています。

要約(オリジナル)

In many classification applications, the prediction of a deep neural network (DNN) based classifier needs to be accompanied with some confidence indication. Two popular post-processing approaches for that aim are: 1) calibration: modifying the classifier’s softmax values such that their maximum (associated with the prediction) better estimates the correctness probability; and 2) conformal prediction (CP): devising a score (based on the softmax values) from which a set of predictions with theoretically guaranteed marginal coverage of the correct class is produced. While in practice both types of indications can be desired, so far the interplay between them has not been investigated. Toward filling this gap, in this paper we study the effect of temperature scaling, arguably the most common calibration technique, on prominent CP methods. We start with an extensive empirical study that among other insights shows that, surprisingly, calibration has a detrimental effect on popular adaptive CP methods: it frequently leads to larger prediction sets. Then, we turn to theoretically analyze this behavior. We reveal several mathematical properties of the procedure, according to which we provide a reasoning for the phenomenon. Our study suggests that it may be worthwhile to utilize adaptive CP methods, chosen for their enhanced conditional coverage, based on softmax values prior to (or after canceling) temperature scaling calibration.

arxiv情報

著者 Lahav Dabah,Tom Tirer
発行日 2024-02-08 16:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク