Reliably detecting model failures in deployment without labels

要約

データの分布は時間の経過とともに変化します。
動的環境で動作するモデルは、再訓練する必要があります。
しかし、レーベルへのアクセスなしでいつ再訓練するかを知ることは、一部のものからのオープンな課題ですが、すべてのシフトがモデルのパフォーマンスを低下させるわけではありません。
この論文は、展開後の劣化(PDD)モニタリングの問題を正式にして対処しています。
予測モデルの意見の相違に基づいた実用的で効率的な監視アルゴリズムであるD3Mを提案し、非劣化シフトの下で低い誤検出率を達成し、悪化したシフトの下での高い真の正速度のサンプルの複雑さの境界を提供します。
標準ベンチマークと実世界の大規模な内科データセットの両方での経験的結果は、フレームワークの有効性を示し、ハイステークス機械学習パイプラインのアラートメカニズムとしての実行可能性を強調しています。

要約(オリジナル)

The distribution of data changes over time; models operating operating in dynamic environments need retraining. But knowing when to retrain, without access to labels, is an open challenge since some, but not all shifts degrade model performance. This paper formalizes and addresses the problem of post-deployment deterioration (PDD) monitoring. We propose D3M, a practical and efficient monitoring algorithm based on the disagreement of predictive models, achieving low false positive rates under non-deteriorating shifts and provides sample complexity bounds for high true positive rates under deteriorating shifts. Empirical results on both standard benchmark and a real-world large-scale internal medicine dataset demonstrate the effectiveness of the framework and highlight its viability as an alert mechanism for high-stakes machine learning pipelines.

arxiv情報

著者 Viet Nguyen,Changjian Shui,Vijay Giri,Siddarth Arya,Amol Verma,Fahad Razak,Rahul G. Krishnan
発行日 2025-06-09 16:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク