End-To-End Causal Effect Estimation from Unstructured Natural Language Data

要約

介入の効果を知ることは人間の意思決定にとって重要ですが、因果関係の推定のための現在のアプローチは、因果関係の仮定に関係なく、手動のデータ収集と構造化に依存しています。
これにより、研究のコストと完了までの時間の両方が増加します。
私たちは、大規模言語モデル (LLM) を使用して大規模で多様な観察テキスト データをマイニングし、適切な因果関係の仮定の下で安価な因果効果推定値を生成する方法を示します。
NATURAL は、非構造化テキストのデータセットに対して動作する LLM で構築された因果効果推定器の新しいファミリーです。
私たちの推定量は、因果効果の古典的な推定量の計算を支援するために、LLM 条件付き分布 (テキスト データが与えられた対象の変数に対して) を使用します。
このアイデアを実現するために、データキュレーションの自動化や欠落情報を補うための LLM の使用など、多くの技術的課題を克服しました。
6 つの観測データセット (合成 2 つと実際の 4 つ) を準備し、ランダム化試験の形式で対応するグラウンド トゥルースと組み合わせて、パイプラインの各ステップを系統的に評価するために使用しました。
NATURAL 推定器は顕著なパフォーマンスを示し、実際の第 3/4 相臨床試験を含め、グラウンド トゥルースの対応物と比較して 3 パーセント ポイント以内に収まる因果効果推定値を生成します。
私たちの結果は、非構造化テキスト データが因果関係情報の豊富な情報源であり、NATURAL がこのリソースを利用する自動パイプラインへの第一歩であることを示唆しています。

要約(オリジナル)

Knowing the effect of an intervention is critical for human decision-making, but current approaches for causal effect estimation rely on manual data collection and structuring, regardless of the causal assumptions. This increases both the cost and time-to-completion for studies. We show how large, diverse observational text data can be mined with large language models (LLMs) to produce inexpensive causal effect estimates under appropriate causal assumptions. We introduce NATURAL, a novel family of causal effect estimators built with LLMs that operate over datasets of unstructured text. Our estimators use LLM conditional distributions (over variables of interest, given the text data) to assist in the computation of classical estimators of causal effect. We overcome a number of technical challenges to realize this idea, such as automating data curation and using LLMs to impute missing information. We prepare six (two synthetic and four real) observational datasets, paired with corresponding ground truth in the form of randomized trials, which we used to systematically evaluate each step of our pipeline. NATURAL estimators demonstrate remarkable performance, yielding causal effect estimates that fall within 3 percentage points of their ground truth counterparts, including on real-world Phase 3/4 clinical trials. Our results suggest that unstructured text data is a rich source of causal effect information, and NATURAL is a first step towards an automated pipeline to tap this resource.

arxiv情報

著者 Nikita Dhawan,Leonardo Cotta,Karen Ullrich,Rahul G. Krishnan,Chris J. Maddison
発行日 2024-07-09 16:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ME パーマリンク