要約
因果推論(CR)の基本的な側面である実際の因果関係(AC)は、実際のシナリオでの帰属と責任の割り当ての原因です。
ただし、既存のLLMベースの方法には、正式なAC理論の根拠がなく、解釈が限られています。
したがって、ACシナリオ内の因果関係のあるイベントを識別する半形式的な推論フレームワークであるAC-Reasonを提案し、正式な因果要因(たとえば、十分性、必要性、正常性など)の値を推測し、説明とともに理論誘導アルゴリズムを介してACクエリに回答します。
AC-Reasonは因果グラフを明示的に構築しませんが、原則の推論をサポートするために、基礎となる因果構造の変数を介して動作します。
包括的な評価を可能にするために、ACベンチを導入します。ACベンチは、大手ベンチのハード因果判断(BBH-CJ)に基づいて実質的に拡張された新しいベンチマークであるACベンチを導入します。
ACベンチは、〜1Kの注意深く注釈付きサンプルで構成されており、それぞれに詳細な推論ステップがあり、実際の因果関係のみに焦点を当てています。
ケーススタディは、ACベンチの合成サンプルがLLMに大きな課題をもたらすことを示しています。
BBH-CJおよびACベンチに関する広範な実験は、AC-Reasonがベースライン上のLLMパフォーマンスを一貫して改善することを示しています。
BBH-CJでは、テストされたすべてのLLMSが69.60%の平均人間の評価者精度を上回り、GPT-4 + AC-Reasonは75.04%を達成しています。
ACベンチでは、GPT-4 + AC-Reasonが再び71.82%の最高精度を達成します。
ACベンチはさらに、忠実さを推論する微細な分析を可能にし、Qwen-2.5-72b-instruct、claude-3.5-sonnet、およびGPT-4oのみが忠実な推論を示すのに対し、GPT-4はショートカットを悪用する傾向があることを明らかにします。
最後に、私たちのアブレーション研究は、AC理論をLLMSに統合することが非常に効果的であり、提案されたアルゴリズムが最も重要なパフォーマンスの向上に寄与することを証明しています。
要約(オリジナル)
Actual causality (AC), a fundamental aspect of causal reasoning (CR), is responsible for attribution and responsibility assignment in real-world scenarios. However, existing LLM-based methods lack grounding in formal AC theory, resulting in limited interpretability. Therefore, we propose AC-Reason, a semi-formal reasoning framework that identifies causally relevant events within an AC scenario, infers the values of their formal causal factors (e.g., sufficiency, necessity, and normality), and answers AC queries via a theory-guided algorithm with explanations. While AC-Reason does not explicitly construct a causal graph, it operates over variables in the underlying causal structure to support principled reasoning. To enable comprehensive evaluation, we introduce AC-Bench, a new benchmark built upon and substantially extending Big-Bench Hard Causal Judgment (BBH-CJ). AC-Bench comprises ~1K carefully annotated samples, each with detailed reasoning steps and focuses solely on actual causation. The case study shows that synthesized samples in AC-Bench present greater challenges for LLMs. Extensive experiments on BBH-CJ and AC-Bench show that AC-Reason consistently improves LLM performance over baselines. On BBH-CJ, all tested LLMs surpass the average human rater accuracy of 69.60%, with GPT-4 + AC-Reason achieving 75.04%. On AC-Bench, GPT-4 + AC-Reason again achieves the highest accuracy of 71.82%. AC-Bench further enables fine-grained analysis of reasoning faithfulness, revealing that only Qwen-2.5-72B-Instruct, Claude-3.5-Sonnet, and GPT-4o exhibit faithful reasoning, whereas GPT-4 tends to exploit shortcuts. Finally, our ablation study proves that integrating AC theory into LLMs is highly effective, with the proposed algorithm contributing the most significant performance gains.
arxiv情報
著者 | Yanxi Zhang,Xin Cong,Zhong Zhang,Xiao Liu,Dongyan Zhao,Yesai Wu |
発行日 | 2025-05-13 17:02:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google