How Flawed Is ECE? An Analysis via Logit Smoothing

要約

非公式には、モデルの予測が予測の信頼度と一致する確率で正しい場合、モデルは校正されていると言えます。較正を測定するための文献で最も一般的な方法は、期待較正誤差(ECE)である。しかし最近の研究では、ECEは予測変数の空間において不連続であるなどの欠点が指摘されている。本研究では、これらの問題がどの程度根本的であり、既存の結果にどのような影響を与えるのか?この目的のために、我々はポーランド空間上の一般的な確率測度に関してECEの不連続性を完全に特徴付ける。そして、これらの不連続性の性質を利用して、連続的で推定が容易な新しい誤算尺度を動機付け、これをLogit-Smoothed ECE(LS-ECE)と呼ぶ。事前に訓練された画像分類モデルのECEとLS-ECEを比較することにより、ビニングされたECEがLS-ECEに密接に追従することを最初の実験で示し、ECEの理論的な病理が実際には回避可能である可能性を示す。

要約(オリジナル)

Informally, a model is calibrated if its predictions are correct with a probability that matches the confidence of the prediction. By far the most common method in the literature for measuring calibration is the expected calibration error (ECE). Recent work, however, has pointed out drawbacks of ECE, such as the fact that it is discontinuous in the space of predictors. In this work, we ask: how fundamental are these issues, and what are their impacts on existing results? Towards this end, we completely characterize the discontinuities of ECE with respect to general probability measures on Polish spaces. We then use the nature of these discontinuities to motivate a novel continuous, easily estimated miscalibration metric, which we term Logit-Smoothed ECE (LS-ECE). By comparing the ECE and LS-ECE of pre-trained image classification models, we show in initial experiments that binned ECE closely tracks LS-ECE, indicating that the theoretical pathologies of ECE may be avoidable in practice.

arxiv情報

著者 Muthu Chidambaram,Holden Lee,Colin McSwiggen,Semon Rezchikov
発行日 2024-06-03 16:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: (Primary), 60E05, cs.LG, math.PR パーマリンク