Enhancing the Performance of Neural Networks Through Causal Discovery and Integration of Domain Knowledge

要約

この論文では、予測パフォーマンスを向上させるために、観測変数間の階層的因果関係構造をニューラル ネットワークにエンコードするための一般的な方法論を開発します。
提案された方法論は、因果関係情報型ニューラル ネットワーク (CINN) と呼ばれ、3 つの一貫したステップを活用して、すべての因果関係の方向性を厳密に維持しながら、構造的因果関係の知識をニューラル ネットワークの層ごとの設計に体系的にマッピングします。
最初のステップでは、CINN は有向非巡回グラフ (DAG) 学習を介して観測データから因果関係を発見します。この場合、因果関係の発見は、組み合わせの性質を回避する連続最適化問題として再キャストされます。
2 番目のステップでは、観測変数間の発見された階層的因果関係構造が、専用のアーキテクチャとカスタマイズされた損失関数を通じてニューラル ネットワークに体系的にエンコードされます。
因果関係 DAG 内の変数をルート、中間、リーフ ノードとして分類することにより、階層的因果関係 DAG は、因果関係 DAG 内のノードと CINN 内のユニット間の相対的な順序を維持しながら、1 対 1 対応の CINN に変換されます。
ノード。
損失関数に関しては、異なるタイプのノード間の因果関係の共同学習を促進するために、DAG グラフの中間ノードと葉ノードの両方が CINN トレーニング中にターゲット出力として扱われます。
CINN では複数の損失成分が現れるため、競合する勾配の投影を利用して、複数の学習タスク間の勾配の干渉を軽減します。
広範囲の UCI データセットにわたる計算実験により、他の最先端の方法と比べて、予測パフォーマンスにおける CINN の大きな利点が実証されています。
さらに、アブレーション研究は、ニューラル ネットワークの予測パフォーマンスを段階的に強化する際に、構造的および定量的な因果関係の知識を統合することの価値を強調しています。

要約(オリジナル)

In this paper, we develop a generic methodology to encode hierarchical causality structure among observed variables into a neural network in order to improve its predictive performance. The proposed methodology, called causality-informed neural network (CINN), leverages three coherent steps to systematically map the structural causal knowledge into the layer-to-layer design of neural network while strictly preserving the orientation of every causal relationship. In the first step, CINN discovers causal relationships from observational data via directed acyclic graph (DAG) learning, where causal discovery is recast as a continuous optimization problem to avoid the combinatorial nature. In the second step, the discovered hierarchical causality structure among observed variables is systematically encoded into neural network through a dedicated architecture and customized loss function. By categorizing variables in the causal DAG as root, intermediate, and leaf nodes, the hierarchical causal DAG is translated into CINN with a one-to-one correspondence between nodes in the causal DAG and units in the CINN while maintaining the relative order among these nodes. Regarding the loss function, both intermediate and leaf nodes in the DAG graph are treated as target outputs during CINN training so as to drive co-learning of causal relationships among different types of nodes. As multiple loss components emerge in CINN, we leverage the projection of conflicting gradients to mitigate gradient interference among the multiple learning tasks. Computational experiments across a broad spectrum of UCI data sets demonstrate substantial advantages of CINN in predictive performance over other state-of-the-art methods. In addition, an ablation study underscores the value of integrating structural and quantitative causal knowledge in enhancing the neural network’s predictive performance incrementally.

arxiv情報

著者 Xiaoge Zhang,Xiao-Lin Wang,Fenglei Fan,Yiu-Ming Cheung,Indranil Bose
発行日 2024-12-24 12:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME パーマリンク