Large Language Models for Constrained-Based Causal Discovery

要約

因果関係は、経済、脳、気候などの複雑なシステムを理解するために不可欠です。
因果関係グラフの構築は、多くの場合、データ主導型または専門家主導のアプローチのいずれかに依存しますが、どちらも課題を伴います。
前者の方法は、有名な PC アルゴリズムと同様に、データ要件と因果関係の十分性の仮定に関する問題に直面しますが、後者の方法はかなりの時間と領域の知識を必要とします。
この研究では、因果グラフ生成のためのドメイン専門家に代わる大規模言語モデル (LLM) の機能を調査します。
条件付き独立性クエリを LLM へのプロンプトとして構成し、その回答に PC アルゴリズムを使用します。
既知の因果グラフを備えたシステムにおける LLM ベースの条件付き独立性オラクルのパフォーマンスは、高度な変動性を示します。
私たちは、偽陽性率と偽陰性率をある程度制御できる、提案された統計にヒントを得た投票スキーマを通じてパフォーマンスを向上させます。
思考連鎖の議論を調べると、確率的な質問に対する答えを正当化する因果関係の推論が見つかります。
私たちは、知識ベースの CIT が最終的にはデータ駆動型の因果関係発見のための補完的なツールになる可能性があるという証拠を示します。

要約(オリジナル)

Causality is essential for understanding complex systems, such as the economy, the brain, and the climate. Constructing causal graphs often relies on either data-driven or expert-driven approaches, both fraught with challenges. The former methods, like the celebrated PC algorithm, face issues with data requirements and assumptions of causal sufficiency, while the latter demand substantial time and domain knowledge. This work explores the capabilities of Large Language Models (LLMs) as an alternative to domain experts for causal graph generation. We frame conditional independence queries as prompts to LLMs and employ the PC algorithm with the answers. The performance of the LLM-based conditional independence oracle on systems with known causal graphs shows a high degree of variability. We improve the performance through a proposed statistical-inspired voting schema that allows some control over false-positive and false-negative rates. Inspecting the chain-of-thought argumentation, we find causal reasoning to justify its answer to a probabilistic query. We show evidence that knowledge-based CIT could eventually become a complementary tool for data-driven causal discovery.

arxiv情報

著者 Kai-Hendrik Cohrs,Gherardo Varando,Emiliano Diaz,Vasileios Sitokonstantinou,Gustau Camps-Valls
発行日 2024-06-11 15:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク