Designing monitoring strategies for deployed machine learning algorithms: navigating performativity through a causal lens

要約

機械学習 (ML) ベースのシステムを展開した後、アルゴリズムの安全性と有効性を長期にわたって確保するには、そのパフォーマンスを監視することが重要です。
ML アルゴリズムがその環境と相互作用する場合、アルゴリズムはデータ生成メカニズムに影響を及ぼし、スタンドアロンのパフォーマンスを評価する際のバイアスの主な原因となる可能性があり、これはパフォーマンスとして知られる問題です。
これまでの研究では、因果推論技術を使用してパフォーマンスの存在下でモデルを検証する方法を示してきましたが、パフォーマンスの存在下でモデルを監視する方法に関する研究はほとんどありませんでした。
モデル検証の設定とは異なり、どのパフォーマンス メトリクスを監視するかについての合意ははるかに少ないです。
さまざまな監視基準は、結果として得られるテスト統計の解釈可能性、識別可能性のために必要な仮定、および検出の速度に影響を与えます。
この選択が、観察データと介入データのどちらを使用するかの決定とさらに組み合わされると、ML 導入チームは多数の監視オプションに直面することになります。
この研究の目的は、比較的過小評価されている監視戦略の設計の複雑さと、因果関係の推論がこれらのオプションから選択するための体系的なフレームワークをどのように提供できるかを強調することです。
動機付けとなる例として、計画外の再入院を予測するための ML ベースのリスク予測アルゴリズムを検討します。
因果推論と統計的プロセス制御のツールを組み合わせて、6 つの監視手順 (3 つの監視基準候補と 2 つのデータ ソース) を検討し、シミュレーション研究でそれらの動作特性を調査します。
このケーススタディの結果は、すべての監視システムが同じように作成されているわけではなく、ML 監視システムの設計と文書化に現実世界の影響を与えるという一見単純 (そして明白な) 事実を強調しています。

要約(オリジナル)

After a machine learning (ML)-based system is deployed, monitoring its performance is important to ensure the safety and effectiveness of the algorithm over time. When an ML algorithm interacts with its environment, the algorithm can affect the data-generating mechanism and be a major source of bias when evaluating its standalone performance, an issue known as performativity. Although prior work has shown how to validate models in the presence of performativity using causal inference techniques, there has been little work on how to monitor models in the presence of performativity. Unlike the setting of model validation, there is much less agreement on which performance metrics to monitor. Different monitoring criteria impact how interpretable the resulting test statistic is, what assumptions are needed for identifiability, and the speed of detection. When this choice is further coupled with the decision to use observational versus interventional data, ML deployment teams are faced with a multitude of monitoring options. The aim of this work is to highlight the relatively under-appreciated complexity of designing a monitoring strategy and how causal reasoning can provide a systematic framework for choosing between these options. As a motivating example, we consider an ML-based risk prediction algorithm for predicting unplanned readmissions. Bringing together tools from causal inference and statistical process control, we consider six monitoring procedures (three candidate monitoring criteria and two data sources) and investigate their operating characteristics in simulation studies. Results from this case study emphasize the seemingly simple (and obvious) fact that not all monitoring systems are created equal, which has real-world impacts on the design and documentation of ML monitoring systems.

arxiv情報

著者 Jean Feng,Adarsh Subbaswamy,Alexej Gossmann,Harvineet Singh,Berkman Sahiner,Mi-Ok Kim,Gene Pennello,Nicholas Petrick,Romain Pirracchio,Fan Xia
発行日 2024-02-26 07:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク