On the Unlikelihood of D-Separation


因果探索は、因果グラフから生成されるデータから因果グラフを復元することを目的とする。制約に基づく手法は、グラフ中のノードのd分離条件集合をオラクル経由で探索することでこれを行う。本論文では、グラフが極端にまばらでない限り、大きなグラフでは、d-分離が存在することが保証されていても、稀な現象であることを解析的に示す。次に、因果発見のためのPCアルゴリズムと、UniformSGSと呼ぶSGSアルゴリズムの変形について、平均的な場合の解析を行う。ノードの集合$V={v_1,ldots,v_n}$を考え、$(v_a,v_b)$in E$を$ab$なら$0$でランダムにDAG $G=(V,E)$を生成する。また、$x$と$y$がd-分離可能であることを条件として、$V-{x,y}$の部分集合が$x$と$y$をd-分離する確率の上界を与える。この上界は$|V| \rightarrow \infty$として指数関数的に速く$0$まで減衰する。PCアルゴリズムについては、非分離グラフでは最悪保証が破綻することが知られているが、平均の場合も同様であり、スパース性の要求がかなり厳しいことを示す:良い性能を得るためには、平均の場合でも密度は$|V| \rightarrow Γinfty$のように$0$にならなければならない。UniformSGSの場合、既存のエッジに対して実行時間が指数関数的であることは知られているが、平均的なケースでは、ほとんどの存在しないエッジに対しても同様に期待される実行時間であることを示す。


Causal discovery aims to recover a causal graph from data generated by it; constraint based methods do so by searching for a d-separating conditioning set of nodes in the graph via an oracle. In this paper, we provide analytic evidence that on large graphs, d-separation is a rare phenomenon, even when guaranteed to exist, unless the graph is extremely sparse. We then provide an analytic average case analysis of the PC Algorithm for causal discovery, as well as a variant of the SGS Algorithm we call UniformSGS. We consider a set $V=\{v_1,\ldots,v_n\}$ of nodes, and generate a random DAG $G=(V,E)$ where $(v_a, v_b) \in E$ with i.i.d. probability $p_1$ if $a b$. We provide upper bounds on the probability that a subset of $V-\{x,y\}$ d-separates $x$ and $y$, conditional on $x$ and $y$ being d-separable; our upper bounds decay exponentially fast to $0$ as $|V| \rightarrow \infty$. For the PC Algorithm, while it is known that its worst-case guarantees fail on non-sparse graphs, we show that the same is true for the average case, and that the sparsity requirement is quite demanding: for good performance, the density must go to $0$ as $|V| \rightarrow \infty$ even in the average case. For UniformSGS, while it is known that the running time is exponential for existing edges, we show that in the average case, that is the expected running time for most non-existing edges as well.


著者 Itai Feigenbaum,Huan Wang,Shelby Heinecke,Juan Carlos Niebles,Weiran Yao,Caiming Xiong,Devansh Arpit
発行日 2023-10-03 14:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ME パーマリンク