On the good reliability of an interval-based metric to validate prediction uncertainty for machine learning regression tasks

要約

この短い研究は、予測不確かさの平均校正のための(より)信頼性の高い検証方法への日和見的なアプローチを示しています。
分散ベースのキャリブレーション メトリクス (ZMS、NLL、RCE…) は、不確実性と誤差の分布における重い裾の存在に非常に敏感であることを考慮して、間隔ベースのメトリクスである予測間隔カバレッジ確率 (
PICP)。
分子特性データセットの大規模なアンサンブルでは、(1) Z スコアのセットは Student’s-$t(\nu)$ 分布でよく表され、$\nu$ は自由度の数であることが示されています。
(2) 95 $\%$ 予測区間の正確な推定は、$\nu>3$ に対する単純な $2\sigma$ ルールによって取得できます。
(3) 結果として得られる PICP は、分散ベースの校正メトリクスよりも迅速かつ確実にテストされます。
全体として、この方法では、ZMS テストよりも 20 $\%$ 多くのデータセットをテストできます。
条件付きキャリブレーションも、PICP アプローチを使用して評価されます。

要約(オリジナル)

This short study presents an opportunistic approach to a (more) reliable validation method for prediction uncertainty average calibration. Considering that variance-based calibration metrics (ZMS, NLL, RCE…) are quite sensitive to the presence of heavy tails in the uncertainty and error distributions, a shift is proposed to an interval-based metric, the Prediction Interval Coverage Probability (PICP). It is shown on a large ensemble of molecular properties datasets that (1) sets of z-scores are well represented by Student’s-$t(\nu)$ distributions, $\nu$ being the number of degrees of freedom; (2) accurate estimation of 95 $\%$ prediction intervals can be obtained by the simple $2\sigma$ rule for $\nu>3$; and (3) the resulting PICPs are more quickly and reliably tested than variance-based calibration metrics. Overall, this method enables to test 20 $\%$ more datasets than ZMS testing. Conditional calibration is also assessed using the PICP approach.

arxiv情報

著者 Pascal Pernot
発行日 2024-08-23 14:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク