Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation From Deductive, Inductive and Abductive Views

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクで大きな成功を収めています。
多言語推論や数学的推論など、LLM の特定の推論能力を評価することに多くの関心が集まっています。
しかし、重要な推論の視点の一つである論理的推論能力は、まだ十分に評価されていません。
この取り組みでは、これらのギャップを埋め、総合的な評価を提供することを目指しています。
まず、体系的な評価を提供するために、この論文では 15 の典型的な論理推論データセットを選択し、それらを演繹的、帰納的、アブダクティブ、および混合形式の推論設定に編成します。
評価の包括性を考慮して、3 つの代表的な LLM (text-davinci-003、ChatGPT、BARD) を含め、選択したすべてのデータセットに対してゼロショット、ワンショット、スリーショット設定でそれらを評価します。
2つ目は、これまでの精度などの単純な指標のみによる評価とは異なり、解答と解説を含めた客観的・主観的な細かな評価を提案することです。
また、LLM の論理的欠陥を明らかにするために、悪いケースは 2 つの次元からの 5 つのエラー タイプに起因すると考えられます。
第三に、知識バイアスの影響を回避し、LLM の論理的推論能力のベンチマークに純粋に焦点を当てるために、中立的な内容を持つ新しいデータセットを提案します。
3K のサンプルが含まれており、演繹的、帰納的、およびアブダクティブな推論設定をカバーしています。
徹底的な評価に基づいて、この論文は最終的に、6つの側面(すなわち、正確、厳格、自己認識、積極的、指向性、幻覚なし)からの論理的推論能力の能力マップを結論付けました。
これは、LLM の長所と短所を反映し、将来の作業の指針を示します。

要約(オリジナル)

Large Language Models (LLMs) have achieved great success in various natural language tasks. It has aroused much interest in evaluating the specific reasoning capability of LLMs, such as multilingual reasoning and mathematical reasoning. However, as one of the key reasoning perspectives, logical reasoning capability has not yet been thoroughly evaluated. In this work, we aim to bridge those gaps and provide comprehensive evaluations. Firstly, to offer systematic evaluations, this paper selects fifteen typical logical reasoning datasets and organizes them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD) and evaluate them on all selected datasets under zero-shot, one-shot and three-shot settings. Secondly, different from previous evaluations relying only on simple metrics (e.g., accuracy), we propose fine-level evaluations from objective and subjective manners, covering both answers and explanations. Also, to uncover the logical flaws of LLMs, bad cases will be attributed to five error types from two dimensions. Thirdly, to avoid the influences of knowledge bias and purely focus on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. It contains 3K samples and covers deductive, inductive and abductive reasoning settings. Based on the in-depth evaluations, this paper finally concludes the ability maps of logical reasoning capability from six dimensions (i.e., correct, rigorous, self-aware, active, oriented and no hallucination). It reflects the pros and cons of LLMs and gives guiding directions for future works.

arxiv情報

著者 Fangzhi Xu,Qika Lin,Jiawei Han,Tianzhe Zhao,Jun Liu,Erik Cambria
発行日 2023-06-16 13:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク