Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond

要約

論理的推論は、知識工学と人工知能の領域において常に基本的かつ重要な役割を果たしています。
最近、大規模言語モデル (LLM) は、自然言語処理 (NLP) における注目に値する革新として登場し、さまざまな古典的な NLP タスクにわたって目覚ましい成果を示しています。
しかし、LLM が人間の知能と同様の段階的な認知推論を必要とする論理的推論のタスクに効果的に対処できるかどうかという問題は未解決のままです。
この目的を達成するために、この文書ではこのギャップを埋め、包括的な評価を提供することを目指しています。
まず、体系的な評価を提供するために、15 の典型的な論理推論データセットを選択し、演繹的、帰納的、アブダクティブ、および混合形式の推論設定に編成します。
評価の包括性を考慮して、3 つの代表的な LLM (text-davinci-003、ChatGPT、BARD) を含め、選択したすべてのデータセットに対してゼロショット、ワンショット、スリーショット設定でそれらを評価します。
2つ目は、これまでの精度などの単純な指標のみによる評価とは異なり、解答と解説を含めた客観的・主観的な細かな評価を提案することです。
さらに、LLM の論理的欠陥を明らかにするために、問題のあるケースは、証拠選択プロセスと推論プロセスという 2 つの側面から 5 つのエラー タイプに起因すると考えられます。
第三に、知識バイアスの影響を回避し、LLM の論理的推論能力のベンチマークに純粋に焦点を当てるために、中立的な内容を持つ新しいデータセットを提案します。
3,000 のサンプルが含まれており、演繹的、帰納的、およびアブダクティブな設定をカバーしています。
徹底的な評価に基づいて,本論文は最終的に6つの側面からの論理的推論能力の一般的な評価スキームを形成した。
これは、LLM の長所と短所を反映し、将来の作業の指針を示します。

要約(オリジナル)

Logical reasoning consistently plays a fundamental and significant role in the domains of knowledge engineering and artificial intelligence. Recently, Large Language Models (LLMs) have emerged as a noteworthy innovation in natural language processing (NLP), exhibiting impressive achievements across various classic NLP tasks. However, the question of whether LLMs can effectively address the task of logical reasoning, which requires gradual cognitive inference similar to human intelligence, remains unanswered. To this end, we aim to bridge this gap and provide comprehensive evaluations in this paper. Firstly, to offer systematic evaluations, we select fifteen typical logical reasoning datasets and organize them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD) and evaluate them on all selected datasets under zero-shot, one-shot and three-shot settings. Secondly, different from previous evaluations relying only on simple metrics (e.g., accuracy), we propose fine-level evaluations from objective and subjective manners, covering both answers and explanations. Additionally, to uncover the logical flaws of LLMs, problematic cases will be attributed to five error types from two dimensions, i.e., evidence selection process and reasoning process. Thirdly, to avoid the influences of knowledge bias and purely focus on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. It contains 3,000 samples and covers deductive, inductive and abductive settings. Based on the in-depth evaluations, this paper finally forms a general evaluation scheme of logical reasoning capability from six dimensions. It reflects the pros and cons of LLMs and gives guiding directions for future works.

arxiv情報

著者 Fangzhi Xu,Qika Lin,Jiawei Han,Tianzhe Zhao,Jun Liu,Erik Cambria
発行日 2023-07-11 13:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク