Conditional and Modal Reasoning in Large Language Models

要約

大規模言語モデル (LLM) の推論能力は、人工知能と認知科学におけるますます多くの研究のテーマとなっています。
この論文では、十数個の LLM が論理的に正しい推論と論理的に誤った推論をどの程度区別できるかを調査します。
私たちは、条件文 (例: 「アンにクイーンがあるなら、ボブにはジャックがある」) と認識様相 (例: 「アンにはエースがあるかもしれない」、「ボブにはキングがいるに違いない」) を含む推論パターンに焦点を当てます。
これらの推論パターンは、人間の推論において中心的な役割を果たしていると思われるため、論理学者、哲学者、言語学者にとって特に興味深いものでした。
したがって、これらの推論パターンに基づいて LLM を評価することは、LLM の推論能力が人間の推論能力とどの程度一致するかという問題に非常に関連しています。
私たちがテストした LLM のうち、GPT-4 を除くすべての LLM は、条件分岐で基本的な間違いを犯すことがよくあります。
さらに、GPT-4 でさえ、認識様式を含む推論パターン全体で論理的に一貫性のない判断を示します。

要約(オリジナル)

The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in artificial intelligence and cognitive science. In this paper, we probe the extent to which a dozen LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., ‘If Ann has a queen, then Bob has a jack’) and epistemic modals (e.g., ‘Ann might have an ace’, ‘Bob must have a king’). These inference patterns have been of special interest to logicians, philosophers, and linguists, since they plausibly play a central role in human reasoning. Assessing LLMs on these inference patterns is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. Among the LLMs we tested, all but GPT-4 often make basic mistakes with conditionals. Moreover, even GPT-4 displays logically inconsistent judgments across inference patterns involving epistemic modals.

arxiv情報

著者 Wesley H. Holliday,Matthew Mandelkern
発行日 2024-01-30 16:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 03B65, 68T50, cs.AI, cs.CL, cs.LO, I.2.7 パーマリンク