要約
有向非巡回グラフ (DAG) によって表される根底にある構造的因果関係を捉えることは、さまざまな AI 分野における基本的なタスクです。
継続的最適化フレームワークを介した因果的 DAG 学習は、最近、精度と効率の両方の点で有望なパフォーマンスを達成しました。
ただし、ほとんどの手法は等分散ノイズを強く仮定しています。つまり、外来ノイズは変数、観測値、またはその両方にわたって分散が等しいということです。
実際のデータのノイズは、さまざまなデータ収集プロセスによって導入されたバイアスにより、通常、両方の仮定に違反します。
不均一分散ノイズの問題に対処するために、緩和された実装可能な十分条件を導入し、これらの条件に従う一般的なクラスの SEM の識別可能性を証明します。
識別可能な一般的な SEM に基づいて、変数と観測値にわたるノイズ分散の変動を考慮した DAG 学習のための新しい定式化を提案します。
次に、増大する最適化の困難に対処し、変動する分散の下で不均一分散変数ノイズを含むデータから因果関係のある DAG を学習する、効果的な 2 フェーズ反復 DAG 学習アルゴリズムを提案します。
合成データと実際のデータの両方について、提案されたアプローチが最先端の方法よりも大幅に優れていることを経験的に示します。
要約(オリジナル)
Capturing the underlying structural causal relations represented by Directed Acyclic Graphs (DAGs) has been a fundamental task in various AI disciplines. Causal DAG learning via the continuous optimization framework has recently achieved promising performance in terms of both accuracy and efficiency. However, most methods make strong assumptions of homoscedastic noise, i.e., exogenous noises have equal variances across variables, observations, or even both. The noises in real data usually violate both assumptions due to the biases introduced by different data collection processes. To address the issue of heteroscedastic noise, we introduce relaxed and implementable sufficient conditions, proving the identifiability of a general class of SEM subject to these conditions. Based on the identifiable general SEM, we propose a novel formulation for DAG learning that accounts for the variation in noise variance across variables and observations. We then propose an effective two-phase iterative DAG learning algorithm to address the increasing optimization difficulties and to learn a causal DAG from data with heteroscedastic variable noise under varying variance. We show significant empirical gains of the proposed approaches over state-of-the-art methods on both synthetic data and real data.
arxiv情報
著者 | Naiyu Yin,Tian Gao,Yue Yu,Qiang Ji |
発行日 | 2023-12-20 08:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google