要約
演繹的推論は、健全でまとまりのある議論を展開する上で極めて重要な役割を果たす。LLMは、提供された情報の真理値が与えられた場合に、論理的に導かれる結論を導き出すことを可能にする。大規模言語モデル(LLM)の領域における最近の進歩は、演繹的推論タスクを実行する能力を示している。それにもかかわらず、研究の大部分は、LLMがそのようなタスクを解く際の精度を主に評価しており、推論動作のより深い分析を見落としていることが多い。本研究では、認知心理学の原理に基づき、命題論理問題に対するLLMの反応を詳細に評価することで、LLMが採用する推論戦略を検討する。その結果、LLMは人間に見られるような推論パターンを示すことがわかった。さらに、我々の研究は、モデルのアーキテクチャと規模が、その好む推論方法に大きく影響し、より高度なモデルの方が、より洗練されていないモデルよりも、より頻繁に戦略を採用する傾向があることを示している。重要なことは、モデルの精度、すなわち最終結論の正しさは、必ずしも推論プロセスの妥当性を反映するものではないということである。この違いは、この分野において、よりニュアンスのある評価手順が必要であることを強調している。
要約(オリジナル)
Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model’s accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
arxiv情報
著者 | Philipp Mondorf,Barbara Plank |
発行日 | 2024-06-03 13:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |