Understanding Model Calibration — A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)

要約

信頼できると見なされるためには、各決定に対する信頼が真の結果を密接に反映するように、モデルを調整する必要があります。
このブログ投稿では、キャリブレーションに最も一般的に使用される定義を見て、モデルキャリブレーションのために頻繁に使用される評価測定に飛び込みます。
次に、この尺度の欠点のいくつかと、これらが独自の新しい評価測定を必要とするキャリブレーションの追加概念の必要性をどのように浮上させたかをカバーします。
この投稿は、キャリブレーションに関するすべての作業の詳細な分析ではなく、モデルのキャリブレーション方法にも焦点を当てていません。
代わりに、さまざまな概念とその評価尺度への穏やかな紹介を提供するだけでなく、キャリブレーションを評価するためにまだ広く使用されている尺度でいくつかの問題を再照らすことを目的としています。

要約(オリジナル)

To be considered reliable, a model must be calibrated so that its confidence in each decision closely reflects its true outcome. In this blogpost we’ll take a look at the most commonly used definition for calibration and then dive into a frequently used evaluation measure for model calibration. We’ll then cover some of the drawbacks of this measure and how these surfaced the need for additional notions of calibration, which require their own new evaluation measures. This post is not intended to be an in-depth dissection of all works on calibration, nor does it focus on how to calibrate models. Instead, it is meant to provide a gentle introduction to the different notions and their evaluation measures as well as to re-highlight some issues with a measure that is still widely used to evaluate calibration.

arxiv情報

著者 Maja Pavlovic
発行日 2025-03-24 14:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ME, stat.ML パーマリンク