Fast Causal Discovery by Approximate Kernel-based Generalized Score Functions with Linear Computational Complexity

要約

スコアベースの因果関係発見手法は、候補グラフを評価し、最も高いスコアを持つグラフを選択することにより、因果関係を効果的に特定できます。
よく使用されるスコアのクラスの 1 つは、カーネルベースの一般化スコア関数です。これは、因果関係のメカニズムやデータ分布に関する仮定を回避するため、幅広いシナリオに適応でき、実際にうまく機能します。
これらの利点にもかかわらず、カーネルベースの一般化スコア関数は、時間と空間の点で深刻な計算上の課題を引き起こし、時間計算量は $\mathcal{O}(n^3)$ 、メモリ計算量は $\mathcal{O}(n^
2)$、$n$ はサンプルサイズです。
この論文では、低ランク技術を使用し、必要な複雑な複合行列演算を処理するためのルールのセットを設計することにより、 $\mathcal{O}(n)$ の時間と空間の複雑さを備えた近似カーネルベースの一般化スコア関数を提案します。
スコアを計算するだけでなく、さまざまなデータ型を効率的に処理できるようにさまざまなデータ型のサンプリング アルゴリズムを開発します。
合成データと実世界データの両方に対する当社の大規模な因果関係発見実験は、最先端の方法と比較して、当社の方法が計算コストを大幅に削減できるだけでなく、特に大規模なデータセットにおいて同等の精度を達成できることを実証しています。

要約(オリジナル)

Score-based causal discovery methods can effectively identify causal relationships by evaluating candidate graphs and selecting the one with the highest score. One popular class of scores is kernel-based generalized score functions, which can adapt to a wide range of scenarios and work well in practice because they circumvent assumptions about causal mechanisms and data distributions. Despite these advantages, kernel-based generalized score functions pose serious computational challenges in time and space, with a time complexity of $\mathcal{O}(n^3)$ and a memory complexity of $\mathcal{O}(n^2)$, where $n$ is the sample size. In this paper, we propose an approximate kernel-based generalized score function with $\mathcal{O}(n)$ time and space complexities by using low-rank technique and designing a set of rules to handle the complex composite matrix operations required to calculate the score, as well as developing sampling algorithms for different data types to benefit the handling of diverse data types efficiently. Our extensive causal discovery experiments on both synthetic and real-world data demonstrate that compared to the state-of-the-art method, our method can not only significantly reduce computational costs, but also achieve comparable accuracy, especially for large datasets.

arxiv情報

著者 Yixin Ren,Haocheng Zhang,Yewei Xia,Hao Zhang,Jihong Guan,Shuigeng Zhou
発行日 2024-12-23 16:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク