Evaluating Interventional Reasoning Capabilities of Large Language Models

要約

多くの意思決定タスクでは、システムのさまざまな部分への介入による因果効果を推定する必要があります。
実践者が意思決定を自動化するために大規模言語モデル (LLM) を使用することを検討する場合、その因果推論能力を研究することが重要になります。
最近の一連の研究では、常識的な因果関係の事実を検索する LLM の能力を評価していますが、これらの評価では、LLM が介入についてどのように推論するかを十分に評価していません。
因果推論において介入が果たす役割に動機付けられ、この論文では、LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価するための実証分析を実施します。
私たちは、さまざまな因果関係グラフ (交絡、媒介など) と変数タイプにわたるベンチマークを作成し、介入ベースの推論の研究を可能にします。
これらのベンチマークにより、事実を記憶したり他の近道を見つけたりする能力から生じる変化を正確に予測する LLM の能力を分離することができます。
4 つの LLM に関する私たちの分析は、GPT-4 モデルが介入効果の予測において有望な精度を示している一方で、プロンプト内の気が散る要因に対して依然として敏感であることを強調しています。

要約(オリジナル)

Numerous decision-making tasks require estimating causal effects under interventions on different parts of a system. As practitioners consider using large language models (LLMs) to automate decisions, studying their causal reasoning capabilities becomes crucial. A recent line of work evaluates LLMs ability to retrieve commonsense causal facts, but these evaluations do not sufficiently assess how LLMs reason about interventions. Motivated by the role that interventions play in causal inference, in this paper, we conduct empirical analyses to evaluate whether LLMs can accurately update their knowledge of a data-generating process in response to an intervention. We create benchmarks that span diverse causal graphs (e.g., confounding, mediation) and variable types, and enable a study of intervention-based reasoning. These benchmarks allow us to isolate the ability of LLMs to accurately predict changes resulting from their ability to memorize facts or find other shortcuts. Our analysis on four LLMs highlights that while GPT- 4 models show promising accuracy at predicting the intervention effects, they remain sensitive to distracting factors in the prompts.

arxiv情報

著者 Tejas Kasetty,Divyat Mahajan,Gintare Karolina Dziugaite,Alexandre Drouin,Dhanya Sridhar
発行日 2024-04-08 14:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME パーマリンク