Confidence-based Estimators for Predictive Performance in Model Monitoring

要約

機械学習モデルを実稼働環境にデプロイした後は、その予測パフォーマンスを監視する必要があります。
理想的には、このような監視は、モデルの予測をグランド トゥルース ラベルと比較することによって実行できます。
これを可能にするためには、推論後比較的早くグラウンド トゥルース ラベルを利用できるようにする必要があります。
ただし、グラウンド トゥルース ラベルが大幅な遅延の後にのみ利用可能になるか、最悪の場合にはまったく利用できないというユースケースも数多くあります。
このような場合、モデルの予測パフォーマンスを直接監視することは不可能です。
最近、グランド トゥルースが利用できない場合にモデルの予測パフォーマンスを推定するための新しい方法が開発されました。
これらの手法の多くは、モデルの信頼性やその他の不確実性の推定値を利用しており、与えられた一連の予測に対する信頼性スコアの平均としてモデルの精度を推定する単純なベースライン手法、つまり平均信頼度 (AC) と実験的に比較されます。
ただし、これまで AC 法の理論的特性は適切に調査されていませんでした。
この論文では、AC 法をレビューすることでこのギャップを埋めることを試み、特定の一般的な仮定の下で、AC 法が多くの望ましい特性を備えたモデル精度の不偏かつ一貫した推定量であることを示します。
また、このベースライン推定量をいくつかのより複雑な推定量と経験的に比較し、さまざまな推定量の比較品質はケースに大きく依存しますが、多くの場合、AC 手法が他の推定量に勝つことができることを示します。

要約(オリジナル)

After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model’s predictions against ground truth labels. For this to be possible, the ground truth labels must be available relatively soon after inference. However, there are many use cases where ground truth labels are available only after a significant delay, or in the worst case, not at all. In such cases, directly monitoring the model’s predictive performance is impossible. Recently, novel methods for estimating the predictive performance of a model when ground truth is unavailable have been developed. Many of these methods leverage model confidence or other uncertainty estimates and are experimentally compared against a naive baseline method, namely Average Confidence (AC), which estimates model accuracy as the average of confidence scores for a given set of predictions. However, until now the theoretical properties of the AC method have not been properly explored. In this paper, we try to fill this gap by reviewing the AC method and show that under certain general assumptions, it is an unbiased and consistent estimator of model accuracy with many desirable properties. We also compare this baseline estimator against some more complex estimators empirically and show that in many cases the AC method is able to beat the others, although the comparative quality of the different estimators is heavily case-dependent.

arxiv情報

著者 Juhani Kivimäki,Jakub Białek,Jukka K. Nurminen,Wojtek Kuberski
発行日 2024-07-11 16:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク