Considerations for Distribution Shift Robustness of Diagnostic Models in Healthcare

要約

我々は、ヘルスケアにおける診断モデルの文脈で分布の変化に対するロバスト性を検討します。この場合、予測ターゲット $Y$ (例: 疾患の存在) が、観察 $X$ (例: バイオマーカー) の因果関係上流にあります。
たとえば、特定の人口統計学的特徴を持つ患者を含むドメインでトレーニング データが収集される一方で、モデルが異なる人口統計学的グループの患者に展開される場合、分布のシフトが発生する可能性があります。
健康への応用 ML の分野では、患者に関するさらなる情報を考慮せずに $X$ から $Y$ を予測するのが一般的です。
しかし、予測モデルは、バイオマーカー $X$ に対する病気 $Y$ の直接的な影響を超えて、特定の分布の変化の下では不安定な $X$ と $Y$ の間の交絡的な依存関係 (または近道) を利用することを学習する可能性があります。
この研究では、医療現場に共通するデータ生成メカニズムに焦点を当て、因果関係文献からの最近の理論的結果を堅牢な予測モデルの構築にどのように適用できるかについて説明します。
私たちは、一般的な不変量学習アプローチと同様に共変量を無視すると、一般に、研究対象の設定においてロバストな予測子が得られない一方で、特定の共変量を予測モデルに含めるとロバストな予測子が得られる理由を理論的に示します。
広範なシミュレーション研究で、さまざまなデータ生成プロセスにおけるさまざまな予測子の堅牢性 (またはその欠如) を示します。
最後に、注釈付き ECG 記録の公開データセットである PTB-XL データセットを使用して、さまざまなアプローチのパフォーマンスを分析します。

要約(オリジナル)

We consider robustness to distribution shifts in the context of diagnostic models in healthcare, where the prediction target $Y$, e.g., the presence of a disease, is causally upstream of the observations $X$, e.g., a biomarker. Distribution shifts may occur, for instance, when the training data is collected in a domain with patients having particular demographic characteristics while the model is deployed on patients from a different demographic group. In the domain of applied ML for health, it is common to predict $Y$ from $X$ without considering further information about the patient. However, beyond the direct influence of the disease $Y$ on biomarker $X$, a predictive model may learn to exploit confounding dependencies (or shortcuts) between $X$ and $Y$ that are unstable under certain distribution shifts. In this work, we highlight a data generating mechanism common to healthcare settings and discuss how recent theoretical results from the causality literature can be applied to build robust predictive models. We theoretically show why ignoring covariates as well as common invariant learning approaches will in general not yield robust predictors in the studied setting, while including certain covariates into the prediction model will. In an extensive simulation study, we showcase the robustness (or lack thereof) of different predictors under various data generating processes. Lastly, we analyze the performance of the different approaches using the PTB-XL dataset, a public dataset of annotated ECG recordings.

arxiv情報

著者 Arno Blaas,Adam Goliński,Andrew Miller,Luca Zappella,Jörn-Henrik Jacobsen,Christina Heinze-Deml
発行日 2024-10-25 14:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク