要約
キャリブレーション測定と信頼性図は、確率的予測変数のキャリブレーションを測定および解釈するための 2 つの基本的なツールです。
校正測定は誤校正の程度を定量化し、信頼性図はこの誤校正の構造を視覚化します。
しかし、信頼性図と校正手段の最も一般的な構成 (ビニングと ECE) には、どちらもよく知られた欠陥 (不連続性など) があります。
簡単な変更により両方の構造が修正されることを示します。まず、RBF カーネルを使用して観測値を平滑化し、次にこの平滑化された関数の予想されるキャリブレーション誤差 (ECE) を計算します。
帯域幅を慎重に選択すると、この方法により、(B{\l}asiok、Gopalan、Hu、および Nakkiran 2023a) という意味で適切に動作する、一貫した校正尺度が得られることを証明します。
この尺度を SmoothECE と呼びます。
さらに、この平滑化関数から得られる信頼性図は、ビン化された信頼性図が BinnedECE をエンコードするのと同様に、SmoothECE を視覚的にエンコードします。
また、キャリブレーションを測定およびプロットするための、ハイパーパラメータを必要としないシンプルなメソッドを備えた Python パッケージ (`pip install relplot\`) も提供しています。
要約(オリジナル)
Calibration measures and reliability diagrams are two fundamental tools for measuring and interpreting the calibration of probabilistic predictors. Calibration measures quantify the degree of miscalibration, and reliability diagrams visualize the structure of this miscalibration. However, the most common constructions of reliability diagrams and calibration measures — binning and ECE — both suffer from well-known flaws (e.g. discontinuity). We show that a simple modification fixes both constructions: first smooth the observations using an RBF kernel, then compute the Expected Calibration Error (ECE) of this smoothed function. We prove that with a careful choice of bandwidth, this method yields a calibration measure that is well-behaved in the sense of (B{\l}asiok, Gopalan, Hu, and Nakkiran 2023a) — a consistent calibration measure. We call this measure the SmoothECE. Moreover, the reliability diagram obtained from this smoothed function visually encodes the SmoothECE, just as binned reliability diagrams encode the BinnedECE. We also provide a Python package with simple, hyperparameter-free methods for measuring and plotting calibration: `pip install relplot\`.
arxiv情報
著者 | Jarosław Błasiok,Preetum Nakkiran |
発行日 | 2023-09-21 16:30:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google