Causal Graph Discovery with Retrieval-Augmented Generation based Large Language Models

要約

因果グラフの復元は、因果推論の分野では不可欠です。
従来の方法は通常、知識ベースまたは統計的推定ベースであり、データ収集のバイアスや、関心のある変数間の関係に影響を与える要因に関する個人の知識によって制限されます。
大規模言語モデル (LLM) の進歩により、これらの問題に対処する機会が提供されます。
我々は、科学文献の大規模なコーパスに含まれる広範な知識を利用して、一般的な因果関係グラフ回復タスクにおける因果関係を推定する新しい方法を提案します。
この方法では、検索拡張生成 (RAG) ベースの LLM を利用して、研究論文の包括的なコレクションから関連情報を体系的に分析および抽出します。
私たちの方法では、まず、集約された文献から関連するテキストのチャンクを取得します。
次に、LLM は、因子間の潜在的な関連性を特定してラベルを付けるというタスクを負います。
最後に、因果関係を集計して因果関係グラフを構築する方法を示します。
私たちの方法が文献のみからのよく知られた SACHS データセット上で高品質の因果グラフを構築できることを実証します。

要約(オリジナル)

Causal graph recovery is essential in the field of causal inference. Traditional methods are typically knowledge-based or statistical estimation-based, which are limited by data collection biases and individuals’ knowledge about factors affecting the relations between variables of interests. The advance of large language models (LLMs) provides opportunities to address these problems. We propose a novel method that utilizes the extensive knowledge contained within a large corpus of scientific literature to deduce causal relationships in general causal graph recovery tasks. This method leverages Retrieval Augmented-Generation (RAG) based LLMs to systematically analyze and extract pertinent information from a comprehensive collection of research papers. Our method first retrieves relevant text chunks from the aggregated literature. Then, the LLM is tasked with identifying and labelling potential associations between factors. Finally, we give a method to aggregate the associational relationships to build a causal graph. We demonstrate our method is able to construct high quality causal graphs on the well-known SACHS dataset solely from literature.

arxiv情報

著者 Yuzhe Zhang,Yipeng Zhang,Yidong Gan,Lina Yao,Chen Wang
発行日 2024-02-23 13:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ME パーマリンク