Performance Estimation in Binary Classification Using Calibrated Confidence

要約

モデル監視は、機械学習ライフサイクルの重要なコンポーネントであり、展開後のモデルのパフォーマンスの検出されない低下に対する保護を行います。
従来、パフォーマンス監視には、グラウンドトゥルースラベルへのアクセスが必要であり、常に容易に入手できるとは限りません。
これにより、容認できないレイテンシまたはパフォーマンスの監視が完全に不可能になる可能性があります。
最近、ラベルにアクセスできない分類器モデルの精度を推定するように設計された方法は、有望な結果を示しています。
ただし、多くの場合、モデルのパフォーマンスを評価するのに適している可能性のある他のさまざまなメトリックがあります。
これまで、これらの重要な指標はどれも、科学コミュニティから同様の関心を受けていませんでした。
この作業では、混乱マトリックスを使用して定義されたバイナリ分類メトリックを推定できる新しい方法であるCBPEを提示することにより、このギャップに対処します。
特に、この大家族から4つのメトリックを選択します。精度、精度、リコール、f $ _1 $を選択して、方法を実証します。
CBPEは、混乱マトリックスの要素をランダム変数として扱い、モデルのキャリブレーションされた信頼スコアをレバレッジして分布を推定します。
目的のメトリックは、ランダム変数としても扱われ、その完全な確率分布は推定された混乱マトリックスから導出できます。
CBPEは、強力な理論的保証と有効な信頼区間を備えた推定値を生成することが示されています。

要約(オリジナル)

Model monitoring is a critical component of the machine learning lifecycle, safeguarding against undetected drops in the model’s performance after deployment. Traditionally, performance monitoring has required access to ground truth labels, which are not always readily available. This can result in unacceptable latency or render performance monitoring altogether impossible. Recently, methods designed to estimate the accuracy of classifier models without access to labels have shown promising results. However, there are various other metrics that might be more suitable for assessing model performance in many cases. Until now, none of these important metrics has received similar interest from the scientific community. In this work, we address this gap by presenting CBPE, a novel method that can estimate any binary classification metric defined using the confusion matrix. In particular, we choose four metrics from this large family: accuracy, precision, recall, and F$_1$, to demonstrate our method. CBPE treats the elements of the confusion matrix as random variables and leverages calibrated confidence scores of the model to estimate their distributions. The desired metric is then also treated as a random variable, whose full probability distribution can be derived from the estimated confusion matrix. CBPE is shown to produce estimates that come with strong theoretical guarantees and valid confidence intervals.

arxiv情報

著者 Juhani Kivimäki,Jakub Białek,Wojtek Kuberski,Jukka K. Nurminen
発行日 2025-05-08 14:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 パーマリンク