How to validate average calibration for machine learning regression tasks ?

要約

機械学習回帰タスクの不確実性の平均校正は、2つの方法でテストできる。1つの方法は,平均絶対誤差(MSE)と平均分散(MV)または平均2乗不確実性の差としてキャリブレーション誤差(CE)を推定することである.もう1つの方法は、平均二乗zスコアまたはスケーリング誤差(ZMS)を1と比較することである。最近の機械学習による不確実性定量化の文献からデータセットのアンサンブルで示されるように、どちらのアプローチも異なる結論を導くかもしれない。ここでは、CEは不確かさの分布に非常に敏感であり、特に乖離した不確かさの存在に敏感であることが示され、較正テストには信頼性をもって使用できないことが示されている。対照的に、ZMS統計量はこのような感度の問題がなく、この文脈において最も信頼できるアプローチを提供する。条件付き校正の検証への影響について議論する。

要約(オリジナル)

Average calibration of the uncertainties of machine learning regression tasks can be tested in two ways. One way is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty. The alternative is to compare the mean squared z-scores or scaled errors (ZMS) to 1. Both approaches might lead to different conclusion, as illustrated on an ensemble of datasets from the recent machine learning uncertainty quantification literature. It is shown here that the CE is very sensitive to the distribution of uncertainties, and notably to the presence of outlying uncertainties, and that it cannot be used reliably for calibration testing. By contrast, the ZMS statistic does not present this sensitivity issue and offers the most reliable approach in this context. Implications for the validation of conditional calibration are discussed.

arxiv情報

著者 Pascal Pernot
発行日 2024-03-01 09:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク