要約
この研究では、実際の設定で二乗校正誤差の推定量の比較と最適化を可能にする、平均二乗誤差ベースのリスクを提案します。
分類器の調整を改善することは、特に機密性の高い意思決定シナリオにおいて、機械学習モデルの信頼性と解釈可能性を高めるために重要です。
現在の文献にはさまざまなキャリブレーション (誤差) 推定量が存在しますが、適切な推定量の選択とそのハイパーパラメータの調整に関するガイダンスが不足しています。
二乗校正誤差の双一次構造を利用することで、独立した同一分布 (i.i.d.) の入力ペアを使用した回帰問題として校正推定を再定式化します。
この再定式化により、標準キャリブレーションとして知られる最も困難なキャリブレーション基準であっても、さまざまな推定器のパフォーマンスを定量化することができます。
私たちのアプローチでは、評価データセットのキャリブレーション エラーを推定する際に、トレーニング、検証、テストのパイプラインを推奨します。
既存のキャリブレーション推定量を最適化し、標準的な画像分類タスクに関する新しいカーネル リッジ回帰ベースの推定量と比較することで、パイプラインの有効性を実証します。
要約(オリジナル)
In this work, we propose a mean-squared error-based risk that enables the comparison and optimization of estimators of squared calibration errors in practical settings. Improving the calibration of classifiers is crucial for enhancing the trustworthiness and interpretability of machine learning models, especially in sensitive decision-making scenarios. Although various calibration (error) estimators exist in the current literature, there is a lack of guidance on selecting the appropriate estimator and tuning its hyperparameters. By leveraging the bilinear structure of squared calibration errors, we reformulate calibration estimation as a regression problem with independent and identically distributed (i.i.d.) input pairs. This reformulation allows us to quantify the performance of different estimators even for the most challenging calibration criterion, known as canonical calibration. Our approach advocates for a training-validation-testing pipeline when estimating a calibration error on an evaluation dataset. We demonstrate the effectiveness of our pipeline by optimizing existing calibration estimators and comparing them with novel kernel ridge regression-based estimators on standard image classification tasks.
arxiv情報
| 著者 | Sebastian G. Gruber,Francis Bach |
| 発行日 | 2024-10-09 15:58:06+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google