Confidence-based Estimators for Predictive Performance in Model Monitoring

要約

機械学習モデルが生産に展開された後、その予測パフォーマンスを監視する必要があります。
理想的には、このような監視は、モデルの予測をグラウンドトゥルースラベルと比較することで実行できます。
これを可能にするためには、グラウンドトゥルースラベルは、推論後すぐに利用可能でなければなりません。
ただし、グラウンドトゥルースラベルは、大幅な遅延の後にのみ利用可能である場合、または最悪の場合はまったく使用できない場合があります。
そのような場合、モデルの予測パフォーマンスを直接監視することは不可能です。
最近、グラウンドトゥルースが利用できないときにモデルの予測パフォーマンスを推定するための新しい方法が開発されました。
これらの方法の多くは、モデルの信頼性またはその他の不確実性の推定値を活用し、ナイーブなベースライン法、つまり平均信頼性(AC)と実験的に比較されます。
ただし、これまで、ACメソッドの理論的特性は適切に調査されていません。
この論文では、ACメソッドをレビューしてこのギャップを埋め、特定の一般的な仮定の下で、モデル精度の偏りのない一貫した推定器であることを示しています。
また、このベースライン推定器をより複雑な推定器と経験的に比較し、多くの場合、ACメソッドが他の方法を打ち負かすことができることを示していますが、異なる推定器の比較品質は大規模なケース依存性です。

要約(オリジナル)

After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model’s predictions against ground truth labels. For this to be possible, the ground truth labels must be available relatively soon after inference. However, there are many use cases where ground truth labels are available only after a significant delay, or in the worst case, not at all. In such cases, directly monitoring the model’s predictive performance is impossible. Recently, novel methods for estimating the predictive performance of a model when ground truth is unavailable have been developed. Many of these methods leverage model confidence or other uncertainty estimates and are experimentally compared against a naive baseline method, namely Average Confidence (AC), which estimates model accuracy as the average of confidence scores for a given set of predictions. However, until now the theoretical properties of the AC method have not been properly explored. In this paper, we try to fill this gap by reviewing the AC method and show that under certain general assumptions, it is an unbiased and consistent estimator of model accuracy with many desirable properties. We also compare this baseline estimator against some more complex estimators empirically and show that in many cases the AC method is able to beat the others, although the comparative quality of the different estimators is heavily case-dependent.

arxiv情報

著者 Juhani Kivimäki,Jakub Białek,Jukka K. Nurminen,Wojtek Kuberski
発行日 2025-02-12 14:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク