要約
機械学習モデルのパフォーマンスは、データ分散の変化により、デプロイ後に低下することがよくあります。
多くのユースケースでは、ラベルが利用できないか大幅に遅延するため、展開後のパフォーマンスを計算することは不可能です。
ドリフト検出手法など、モデルのパフォーマンスの安定性を評価するための代替手法では、データ分布シフトの影響を適切に定量化できません。
解決策として、モデルのパフォーマンスに対する共変量シフトの影響を正確に定量化する、ラベルなしデータの ML 分類モデルを評価するための堅牢で正確なパフォーマンス推定方法を提案します。
私たちはこれを、多重校正された信頼性に基づくパフォーマンス推定 (M-CBPE) と呼んでいます。
これはモデルやデータ型に依存せず、あらゆるパフォーマンス メトリックに対して機能します。
監視対象のモデルにアクセスする必要はありません。モデルの予測と確率推定を使用します。
M-CBPE はデータから完全に学習するため、共変量シフトの性質についてユーザーが入力する必要はありません。
米国の国勢調査データからの 600 以上のデータセットとモデルのペアを使用して評価し、いくつかの評価指標を使用して複数のベンチマークと比較します。
結果は、M-CBPE が、あらゆる評価コンテキストにおいて分類モデルのパフォーマンスを推定する最良の方法であることを示しています。
要約(オリジナル)
The performance of machine learning models often degrades after deployment due to data distribution shifts. In many use cases, it is impossible to calculate the post-deployment performance because labels are unavailable or significantly delayed. Proxy methods for evaluating model performance stability, like drift detection techniques, do not properly quantify data distribution shift impact. As a solution, we propose a robust and accurate performance estimation method for evaluating ML classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance. We call it multi-calibrated confidence-based performance estimation (M-CBPE). It is model and data-type agnostic and works for any performance metric. It does not require access to the monitored model – it uses the model predictions and probability estimates. M-CBPE does not need user input on the nature of the covariate shift as it fully learns from the data. We evaluate it with over 600 dataset-model pairs from US census data and compare it with multiple benchmarks using several evaluation metrics. Results show that M-CBPE is the best method to estimate the performance of classification models in any evaluation context.
arxiv情報
著者 | Jakub Białek,Wojtek Kuberski,Nikolaos Perrakis |
発行日 | 2024-01-16 13:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google