Optimizing Calibration by Gaining Aware of Prediction Correctness

要約

モデルのキャリブレーションは、信頼性と予測の正確さを一致させることを目的としています。
クロス エントロピー CE) 損失は、キャリブレーター トレーニングに広く使用されており、モデルのグラウンド トゥルース ク​​ラスの信頼性を高めることができます。
ただし、CE 損失には本質的な制限があることがわかりました。
たとえば、狭い誤分類の場合、CE 損失によってトレーニングされたキャリブレータは、誤って予測されたクラスに対して高い信頼度をもたらすことがよくあります (たとえば、テスト サンプルが誤って分類され、グラウンド トゥルース ク​​ラスのソフトマックス スコアが約 0.4 であるなど) が、これは望ましくありません。

この論文では、校正の目的から導出された新しい事後校正目標を提案します。
直感的には、提案された目的関数は、誤って予測されたサンプルに対するモデルの信頼性を下げ、正しく予測されたサンプルに対する信頼性を高めることをキャリブレーターに要求します。
サンプル自体には正確さを示すのに十分な能力がないため、キャリブレーターのトレーニング中にその変換バージョン (回転、グレースケール、色のジッターなど) を使用します。
流通内検証セットでトレーニングされ、分離された個別のテストサンプルでテストされた当社のメソッドは、流通内および流通外の両方のテストセットで最新技術と比較して競争力のあるキャリブレーションパフォーマンスを達成します。
さらに、私たちの分析では、私たちの方法と、CE損失や平均二乗誤差損失などの一般的に使用される目標との違いが指摘されており、後者は校正の目的から逸脱する場合があります。

要約(オリジナル)

Model calibration aims to align confidence with prediction correctness. The Cross-Entropy CE) loss is widely used for calibrator training, which enforces the model to increase confidence on the ground truth class. However, we find the CE loss has intrinsic limitations. For example, for a narrow misclassification, a calibrator trained by the CE loss often produces high confidence on the wrongly predicted class (e.g., a test sample is wrongly classified and its softmax score on the ground truth class is around 0.4), which is undesirable. In this paper, we propose a new post-hoc calibration objective derived from the aim of calibration. Intuitively, the proposed objective function asks that the calibrator decrease model confidence on wrongly predicted samples and increase confidence on correctly predicted samples. Because a sample itself has insufficient ability to indicate correctness, we use its transformed versions (e.g., rotated, greyscaled and color-jittered) during calibrator training. Trained on an in-distribution validation set and tested with isolated, individual test samples, our method achieves competitive calibration performance on both in-distribution and out-of-distribution test sets compared with the state of the art. Further, our analysis points out the difference between our method and commonly used objectives such as CE loss and mean square error loss, where the latters sometimes deviates from the calibration aim.

arxiv情報

著者 Yuchi Liu,Lei Wang,Yuli Zou,James Zou,Liang Zheng
発行日 2024-04-19 17:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク