The Impact of Missing Data on Causal Discovery: A Multicentric Clinical Study

要約

観察データから臨床仮説を検証するための因果推論には多くの困難が伴う。なぜなら、基礎となるデータ生成モデルと関連する因果グラフは通常利用できないからである。さらに、観察データには欠損値が含まれることがあり、因果関係発見アルゴリズムによる因果グラフの復元に影響を与える。本研究では、子宮内膜がんに関する多中心研究のデータを用いて、異なる欠損メカニズムが回復された因果グラフに与える影響を分析する。これは、理論的な健全性を犠牲にすることなく、専門家の知識を利用するために最新の因果関係発見アルゴリズムを拡張することによって達成される。我々は、回復されたグラフを専門家である医師と検証し、我々のアプローチが臨床的に適切な解決策を見つけることを示す。最後に、因果経路を検証するためのグラフ分離を用いて、我々のグラフの適合度と、臨床的意思決定の観点からのその整合性について議論する。

要約(オリジナル)

Causal inference for testing clinical hypotheses from observational data presents many difficulties because the underlying data-generating model and the associated causal graph are not usually available. Furthermore, observational data may contain missing values, which impact the recovery of the causal graph by causal discovery algorithms: a crucial issue often ignored in clinical studies. In this work, we use data from a multi-centric study on endometrial cancer to analyze the impact of different missingness mechanisms on the recovered causal graph. This is achieved by extending state-of-the-art causal discovery algorithms to exploit expert knowledge without sacrificing theoretical soundness. We validate the recovered graph with expert physicians, showing that our approach finds clinically-relevant solutions. Finally, we discuss the goodness of fit of our graph and its consistency from a clinical decision-making perspective using graphical separation to validate causal pathways.

arxiv情報

著者 Alessio Zanga,Alice Bernasconi,Peter J. F. Lucas,Hanny Pijnenborg,Casper Reijnen,Marco Scutari,Fabio Stella
発行日 2023-11-03 14:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, stat.ME パーマリンク