Simulation-based Benchmarking for Causal Structure Learning in Gene Perturbation Experiments

要約

因果構造学習 (CSL) は、データから因果関係を学習するタスクを指します。
CSL の進歩により、さまざまなアプリケーション ドメインで因果グラフを学習できるようになり、データ駆動型の因果関係の意思決定が促進される可能性があります。
実際の CSL のパフォーマンスは、実際の使用例では重要な、コンテキスト固有のデータ分布や非線形依存関係など、多くの $\textit{コンテキスト固有}$ 要素に依存します。
しかし、特定の状況において CSL 手法を評価および選択する方法についての理解は依然として限られています。
このギャップに対処するために、遺伝子摂動実験の設定に焦点を当て、コンテキスト固有の特性を組み込んだ観察データと介入データを生成できる乗法効果構造因果モデル $\textit{CausalRegNet}$ を紹介します。
現実世界の遺伝子摂動データを使用して、CausalRegNet が正確な分布を生成し、現在のシミュレーション フレームワークよりもはるかに優れたスケーリングを行うことを示します。
生物学における介入実験の文脈で CSL 手法を評価する際の CausalRegNet の使用について説明します。

要約(オリジナル)

Causal structure learning (CSL) refers to the task of learning causal relationships from data. Advances in CSL now allow learning of causal graphs in diverse application domains, which has the potential to facilitate data-driven causal decision-making. Real-world CSL performance depends on a number of $\textit{context-specific}$ factors, including context-specific data distributions and non-linear dependencies, that are important in practical use-cases. However, our understanding of how to assess and select CSL methods in specific contexts remains limited. To address this gap, we present $\textit{CausalRegNet}$, a multiplicative effect structural causal model that allows for generating observational and interventional data incorporating context-specific properties, with a focus on the setting of gene perturbation experiments. Using real-world gene perturbation data, we show that CausalRegNet generates accurate distributions and scales far better than current simulation frameworks. We illustrate the use of CausalRegNet in assessing CSL methods in the context of interventional experiments in biology.

arxiv情報

著者 Luka Kovačević,Izzy Newsham,Sach Mukherjee,John Whittaker
発行日 2024-07-08 15:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ML パーマリンク