要約
モデルが信頼できるとみなされるためには、各決定における信頼度が真の結果を忠実に反映するようにキャリブレーションされなければなりません。このブログポストでは、最も一般的に使用されているキャリブレーションの定義を見てから、モデルのキャリブレーションに頻繁に使用される評価尺度を紹介します。そして、この尺度の欠点をいくつか取り上げ、これらの欠点がどのようにキャリブレーションの新たな概念の必要性を表面化させたかを説明します。この投稿は、キャリブレーションに関するすべての著作物の詳細な解剖を意図したものではなく、またモデルのキャリブレーションの方法に焦点を当てたものでもありません。その代わりに、様々な概念とその評価尺度についてやさしく紹介し、また、現在でもキャリブレーションの評価に広く使われている評価尺度の問題点を再確認することを目的としています。
要約(オリジナル)
To be considered reliable, a model must be calibrated so that its confidence in each decision closely reflects its true outcome. In this blogpost we’ll take a look at the most commonly used definition for calibration and then dive into a frequently used evaluation measure for model calibration. We’ll then cover some of the drawbacks of this measure and how these surfaced the need for additional notions of calibration, which require their own new evaluation measures. This post is not intended to be an in-depth dissection of all works on calibration, nor does it focus on how to calibrate models. Instead, it is meant to provide a gentle introduction to the different notions and their evaluation measures as well as to re-highlight some issues with a measure that is still widely used to evaluate calibration.
arxiv情報
著者 | Maja Pavlovic |
発行日 | 2025-02-03 10:57:53+00:00 |
arxivサイト | arxiv_id(pdf) |