要約
大規模言語モデル (LLM) の因果関係は重要な議論の的であり、医学、科学、法律、政策などの社会に影響を与える領域での LLM の使用に重大な影響を及ぼします。
私たちは、LLM の「行動」研究を実施して、因果関係の議論を生成する能力のベンチマークを行います。
幅広いタスクにわたって、LLM は正しい因果関係の引数に対応するテキストを高い確率で生成でき、最も優れたパフォーマンスを発揮する既存のメソッドを上回っていることがわかりました。
GPT-3.5 および 4 に基づくアルゴリズムは、ペアワイズ因果発見タスク (97%、13 ポイント獲得)、反事実推論タスク (92%、20 ポイント獲得)、およびイベント因果関係 (必要十分原因の決定精度 86%) において既存のアルゴリズムを上回っています。
ビネットで)。
私たちはタスク全体で堅牢性チェックを実行し、特に LLM はトレーニング終了日以降に作成された新しいデータセットに一般化されるため、その機能がデータセットの記憶だけでは説明できないことを示します。
とはいえ、LLM には予測不可能な障害モードが存在するため、改善できる可能性のあるエラーの種類と、LLM ベースの回答の基本的な制限は何かについて説明します。
全体として、LLM はテキスト メタデータを操作することにより、収集した知識を使用して因果グラフを生成したり、自然言語から背景の因果コンテキストを特定したりするなど、これまで人間に限定されていると理解されていた機能を実現します。
その結果、人間の領域の専門家は LLM を使用して、因果関係分析をセットアップする際の労力を節約することができます。因果関係分析は、因果関係分析の広範な採用に対する最大の障害の 1 つです。
LLM が実際のデータを無視することを考えると、私たちの結果は、LLM と既存の因果関係技術を組み合わせたアルゴリズムを開発するという実りある研究の方向性も示しています。
コードとデータセットは https://github.com/py-why/pywhy-llm で入手できます。
要約(オリジナル)
The causal capabilities of large language models (LLMs) are a matter of significant debate, with critical implications for the use of LLMs in societally impactful domains such as medicine, science, law, and policy. We conduct a ‘behavorial’ study of LLMs to benchmark their capability in generating causal arguments. Across a wide range of tasks, we find that LLMs can generate text corresponding to correct causal arguments with high probability, surpassing the best-performing existing methods. Algorithms based on GPT-3.5 and 4 outperform existing algorithms on a pairwise causal discovery task (97%, 13 points gain), counterfactual reasoning task (92%, 20 points gain) and event causality (86% accuracy in determining necessary and sufficient causes in vignettes). We perform robustness checks across tasks and show that the capabilities cannot be explained by dataset memorization alone, especially since LLMs generalize to novel datasets that were created after the training cutoff date. That said, LLMs exhibit unpredictable failure modes, and we discuss the kinds of errors that may be improved and what are the fundamental limits of LLM-based answers. Overall, by operating on the text metadata, LLMs bring capabilities so far understood to be restricted to humans, such as using collected knowledge to generate causal graphs or identifying background causal context from natural language. As a result, LLMs may be used by human domain experts to save effort in setting up a causal analysis, one of the biggest impediments to the widespread adoption of causal methods. Given that LLMs ignore the actual data, our results also point to a fruitful research direction of developing algorithms that combine LLMs with existing causal techniques. Code and datasets are available at https://github.com/py-why/pywhy-llm.
arxiv情報
著者 | Emre Kıcıman,Robert Ness,Amit Sharma,Chenhao Tan |
発行日 | 2024-08-20 17:16:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google