Monitoring machine learning (ML)-based risk prediction algorithms in the presence of confounding medical interventions

要約

【タイトル】医療介入の混乱が存在する場合に、機械学習(ML)に基づくリスク予測アルゴリズムをモニタリングする方法

【要約】

– 医療の機械学習(ML)に基づくリスク予測モデルの性能モニタリングは、混乱する医療介入(CMI)の問題によって複雑になる。
– CMIとは、アルゴリズムが患者を有害事象の高いリスクと予測するときに、医師が予防的な治療を行い、アルゴリズムの目的とするターゲットを変更することを指す。
– 単純なアプローチでは、CMIを無視し、アウトカムが変更されない未治療の患者のみをモニタリングすることが考えられる。しかし、これは( i )未治療患者が予測されたリスクが低い患者を過剰に表しており、( ii )モデルと医師の信頼性の進化によって標準的な仮定に反する複雑な依存関係が生じるため、1型エラーが増大する可能性がある。
– それにもかかわらず、条件付きパフォーマンスをモニタリングし、条件付き交換性か時間恒常的な選択バイアスが成立している場合には、有効な推論が可能であることが示されている。
– 具体的には、動的制御限界を持つ新しいスコアベースの累積和(CUSUM)モニタリング手順を開発した。シミュレーションを通じて、モデルのアップデートとモニタリングを組み合わせることで、予測モデルへのオーバートラストが性能低下の検出を遅らせる可能性があることを調べた。
– 最後に、COVID-19パンデミック中に手術後の吐き気と嘔吐に対するMLベースのリスク計算機のキャリブレーションの劣化を検出するためにこれらのモニタリング手法がどのように使用されるかを説明した。

要約(オリジナル)

Performance monitoring of machine learning (ML)-based risk prediction models in healthcare is complicated by the issue of confounding medical interventions (CMI): when an algorithm predicts a patient to be at high risk for an adverse event, clinicians are more likely to administer prophylactic treatment and alter the very target that the algorithm aims to predict. A simple approach is to ignore CMI and monitor only the untreated patients, whose outcomes remain unaltered. In general, ignoring CMI may inflate Type I error because (i) untreated patients disproportionally represent those with low predicted risk and (ii) evolution in both the model and clinician trust in the model can induce complex dependencies that violate standard assumptions. Nevertheless, we show that valid inference is still possible if one monitors conditional performance and if either conditional exchangeability or time-constant selection bias hold. Specifically, we develop a new score-based cumulative sum (CUSUM) monitoring procedure with dynamic control limits. Through simulations, we demonstrate the benefits of combining model updating with monitoring and investigate how over-trust in a prediction model may delay detection of performance deterioration. Finally, we illustrate how these monitoring methods can be used to detect calibration decay of an ML-based risk calculator for postoperative nausea and vomiting during the COVID-19 pandemic.

arxiv情報

著者 Jean Feng,Alexej Gossmann,Gene Pennello,Nicholas Petrick,Berkman Sahiner,Romain Pirracchio
発行日 2023-04-14 17:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CY, cs.LG, stat.ML パーマリンク