Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models

要約

論理的推論は人間にとって基本的なものですが、人工知能の分野では大きな課題となります。
当初、研究者は知識表現推論 (KR) システムを使用していましたが、これは拡張性がなく、かなりの手作業が必要でした。
最近、大規模言語モデル (LLM) の出現により、形式的な知識表現 (KR) システムのさまざまな制限を克服できることが実証されました。
その結果、自然言語による論理推論に LLM を使用することへの関心が高まっています。
この研究では、この分野の最新の進歩を簡単にレビューすることで、論理的推論における LLM の習熟度を理解することを目指しています。
論理推論のデータセット、タスク、推論に LLM を利用するために採用された手法に焦点を当てています。
徹底的な分析を提供するために、LogiGLUE というベンチマークを作成しました。
これには、演繹的推論、アブダクティブ推論、帰納的推論を含む 24 のさまざまなデータセットが含まれています。
LogiGLUE を基盤として利用し、命令を微調整した言語モデルをトレーニングし、その結果 LogiT5 が誕生しました。
私たちは、シングルタスク トレーニング、マルチタスク トレーニング、および「思考連鎖」知識蒸留微調整技術を研究して、さまざまな論理推論カテゴリにわたるモデルのパフォーマンスを評価します。
また、LogiGLUE を使用してさまざまな LLM を評価しました。その結果、LLM はアブダクティブ推論で最も優れており、次に演繹的推論が続きますが、帰納的推論では最も効果的ではないことが示されています。
私たちは、LLM の論理的推論能力を向上させるための機能と潜在的な道筋に光を当て、この重要な分野でのより高度で微妙な開発への道を開くことを目指しています。

要約(オリジナル)

Logical reasoning is fundamental for humans yet presents a substantial challenge in the domain of Artificial Intelligence. Initially, researchers used Knowledge Representation and Reasoning (KR) systems that did not scale and required non-trivial manual effort. Recently, the emergence of large language models (LLMs) has demonstrated the ability to overcome various limitations of formal Knowledge Representation (KR) systems. Consequently, there’s a growing interest in using LLMs for logical reasoning via natural language. This work strives to understand the proficiency of LLMs in logical reasoning by offering a brief review of the latest progress in this area; with a focus on the logical reasoning datasets, tasks, and the methods adopted to utilize LLMs for reasoning. To offer a thorough analysis, we have compiled a benchmark titled LogiGLUE. This includes 24 varied datasets encompassing deductive, abductive, and inductive reasoning. Utilizing LogiGLUE as a foundation, we have trained an instruction fine-tuned language model, resulting in LogiT5. We study single-task training, multi-task training, and ‘chain-of-thought’ knowledge distillation fine-tuning technique to assess the performance of model across the different logical reasoning categories. We also assess various LLMs using LogiGLUE, and the findings indicate that LLMs excel most in abductive reasoning, followed by deductive reasoning, while they are least effective at inductive reasoning. We aim to shed light on the capabilities and potential pathways for enhancing logical reasoning proficiency in LLMs, paving the way for more advanced and nuanced developments in this critical field.

arxiv情報

著者 Man Luo,Shrinidhi Kumbhar,Ming shen,Mihir Parmar,Neeraj Varshney,Pratyay Banerjee,Somak Aditya,Chitta Baral
発行日 2024-03-31 01:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク