要約
機械学習回帰タスクの予測不確かさの平均キャリブレーションは 2 つの方法でテストできます。1 つは、平均絶対誤差 (MSE) と平均分散 (MV) または平均二乗不確かさの差としてキャリブレーション誤差 (CE) を推定する方法です。
;
別の方法は、平均二乗 Z スコア (ZMS) またはスケール誤差を 1 と比較することです。問題は、最近の機械学習の不確実性の定量化からのデータセットのアンサンブルに関するこの研究で示されているように、両方のアプローチが異なる結論につながる可能性があることです (
ML-UQ) 文献。
MV、MSE、およびそれらの信頼区間の推定は、ヘビーテールの不確実性と誤差分布に対して信頼性が低くなる可能性があることが示されており、これは ML-UQ データセットに共通の問題であると思われます。
対照的に、ZMS 統計は感度が低く、この状況では最も信頼性の高いアプローチを提供します。
残念ながら、同じ問題は、一般的な ENCE などの条件付きキャリブレーション統計や、同様の統計に基づくポストホック キャリブレーション手法にも影響を及ぼします。
間隔ベースまたは分布ベースの UQ メトリクスへのパラダイムの変更を除いて、この問題を軽減するためにできることはあまりないため、潜在的に問題のあるデータセットを検出するために、堅牢なテールネス メトリクスが提案されています。
要約(オリジナル)
Average calibration of the prediction uncertainties of machine learning regression tasks can be tested in two ways: one is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty; the alternative is to compare the mean squared z-scores (ZMS) or scaled errors to 1. The problem is that both approaches might lead to different conclusions, as illustrated in this study for an ensemble of datasets from the recent machine learning uncertainty quantification (ML-UQ) literature. It is shown that the estimation of MV, MSE and their confidence intervals can become unreliable for heavy-tailed uncertainty and error distributions, which seems to be a common issue for ML-UQ datasets. By contrast, the ZMS statistic is less sensitive and offers the most reliable approach in this context. Unfortunately, the same problem affects also conditional calibrations statistics, such as the popular ENCE, and very likely post-hoc calibration methods based on similar statistics. As not much can be done to relieve this issue, except for a change of paradigm to intervals- or distribution-based UQ metrics, robust tailedness metrics are proposed to detect the potentially problematic datasets.
arxiv情報
著者 | Pascal Pernot |
発行日 | 2024-04-19 14:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google