要約
経験科学の多くの領域において、変数内の因果構造を発見することは依然として不可欠な課題です。
最近、従来の方法で被った方向性のないエッジや潜在的な仮定違反に取り組むために、研究者らは因果関係発見のための強化学習 (RL) 手順を策定し、最も報酬の高い有向非巡回グラフを検索する REINFORCE アルゴリズムを装備しました。
プロシージャの全体的なパフォーマンスの 2 つの鍵は、RL メソッドの堅牢性と変数の効率的なエンコードです。
ただし、一方で REINFORCE はトレーニング中に局所的な収束やパフォーマンスが不安定になる傾向があります。
計算コストがかかる信頼領域ポリシーの最適化も、集約制約の逸脱に悩まされる近接ポリシー最適化 (PPO) も、かなりの個別のサブアクションを伴う組み合わせ最適化問題に対する適切な代替手段ではありません。
我々は、REINFORCE、PPO、および優先順位付きサンプリングに基づく REINFORCE 実装と比較して、より優れた検索効率とポリシー最適化の安定性の両方を保証する、因果関係発見のための信頼領域ナビゲート型クリッピング ポリシー最適化手法を提案します。
一方、変数のエンコード効率を高めるために、先験的な近傍情報なしでより多くの特徴情報を把握できる、SDGATと呼ばれる洗練されたグラフアテンションエンコーダを提案します。
これらの改善により、提案された方法は、出力結果と最適化の堅牢性の点で、合成データセットとベンチマーク データセットの両方で以前の RL 方法よりも優れています。
要約(オリジナル)
In many domains of empirical sciences, discovering the causal structure within variables remains an indispensable task. Recently, to tackle with unoriented edges or latent assumptions violation suffered by conventional methods, researchers formulated a reinforcement learning (RL) procedure for causal discovery, and equipped REINFORCE algorithm to search for the best-rewarded directed acyclic graph. The two keys to the overall performance of the procedure are the robustness of RL methods and the efficient encoding of variables. However, on the one hand, REINFORCE is prone to local convergence and unstable performance during training. Neither trust region policy optimization, being computationally-expensive, nor proximal policy optimization (PPO), suffering from aggregate constraint deviation, is decent alternative for combinatory optimization problems with considerable individual subactions. We propose a trust region-navigated clipping policy optimization method for causal discovery that guarantees both better search efficiency and steadiness in policy optimization, in comparison with REINFORCE, PPO and our prioritized sampling-guided REINFORCE implementation. On the other hand, to boost the efficient encoding of variables, we propose a refined graph attention encoder called SDGAT that can grasp more feature information without priori neighbourhood information. With these improvements, the proposed method outperforms former RL method in both synthetic and benchmark datasets in terms of output results and optimization robustness.
arxiv情報
著者 | Shixuan Liu,Yanghe Feng,Keyu Wu,Guangquan Cheng,Jincai Huang,Zhong Liu |
発行日 | 2024-12-27 10:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google