Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset

要約

この論文では、現在の大規模言語モデルが自然言語で論理的推論をどの程度正確に実行できるかという問題を、これらのモデルが人間と同様の推論バイアスを示すかどうかに重点を置いて調査します。
具体的には、私たちの研究は、人間の推論の自然な形式として認知科学で広く研究されている演繹的推論の一形式である三段論的推論に焦点を当てています。
NeuBAROCO と呼ばれる三段論法データセットを紹介します。これは、英語と日本語の三段論的推論問題で構成されています。
このデータセットはもともと、さまざまな形の三段論法を使用して人間の推論能力を評価するための心理学実験用に設計されました。
主要な大規模言語モデルを使った私たちの実験は、これらのモデルが人間と同様の推論バイアスと他のエラー傾向を示すことを示しています。
特に、前提と仮説の間の関係が含意でも矛盾でもない推論問題には、大きな改善の余地があります。
また、新しい思考連鎖プロンプト法を使用した実験結果と詳細な分析も紹介します。この方法では、LLM に三段論法を抽象的な論理式に翻訳し、推論プロセスを説明するよう求めます。
この方法を使用した私たちの分析は、LLM の主な制限が三段論法の解釈ではなく推論プロセス自体にあることを示唆しています。

要約(オリジナル)

This paper explores the question of how accurately current large language models can perform logical reasoning in natural language, with an emphasis on whether these models exhibit reasoning biases similar to humans. Specifically, our study focuses on syllogistic reasoning, a form of deductive reasoning extensively studied in cognitive science as a natural form of human reasoning. We present a syllogism dataset called NeuBAROCO, which consists of syllogistic reasoning problems in English and Japanese. This dataset was originally designed for psychological experiments to assess human reasoning capabilities using various forms of syllogisms. Our experiments with leading large language models indicate that these models exhibit reasoning biases similar to humans, along with other error tendencies. Notably, there is significant room for improvement in reasoning problems where the relationship between premises and hypotheses is neither entailment nor contradiction. We also present experimental results and in-depth analysis using a new Chain-of-Thought prompting method, which asks LLMs to translate syllogisms into abstract logical expressions and then explain their reasoning process. Our analysis using this method suggests that the primary limitations of LLMs lie in the reasoning process itself rather than the interpretation of syllogisms.

arxiv情報

著者 Kentaro Ozeki,Risako Ando,Takanobu Morishita,Hirohiko Abe,Koji Mineshima,Mitsuhiro Okada
発行日 2024-08-08 12:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク