Compositional Causal Reasoning Evaluation in Language Models

要約

因果的推論と構成の推論は、生成AIの2つの中核となる願望です。
これらの動作の範囲を測定するには、原則的な評価方法が必要です。
両方の動作を同時に考慮し、組成因果推論(CCR)と呼ぶ統一された視点を探ります:因果測定がどのように構成するか、同等に、グラフを介してどのように因果量が伝播するかを推測する能力。
平均的な治療効果と必要性と十分性の確率について、CCRの体系的な評価のためのフレームワークを瞬時に導きます。
概念実証として、ラマ、PHI、およびGPTファミリの言語モデルのCCRタスクの設計を実証します。
数学の単語の問題では、私たちのフレームワークは、分類学的に異なるエラーパターンの範囲を明らかにしました。
さらに、CCRエラーは、O1を除くすべてのモデルの因果経路の複雑さとともに増加しました。

要約(オリジナル)

Causal reasoning and compositional reasoning are two core aspirations in generative AI. Measuring the extent of these behaviors requires principled evaluation methods. We explore a unified perspective that considers both behaviors simultaneously, termed compositional causal reasoning (CCR): the ability to infer how causal measures compose and, equivalently, how causal quantities propagate through graphs. We instantiate a framework for the systematic evaluation of CCR for the average treatment effect and the probability of necessity and sufficiency. As proof of concept, we demonstrate the design of CCR tasks for language models in the LLama, Phi, and GPT families. On a math word problem, our framework revealed a range of taxonomically distinct error patterns. Additionally, CCR errors increased with the complexity of causal paths for all models except o1.

arxiv情報

著者 Jacqueline R. M. A. Maasch,Alihan Hüyük,Xinnuo Xu,Aditya V. Nori,Javier Gonzalez
発行日 2025-03-06 15:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク