要約
大規模言語モデル (LLM) は、言語生成における優れた能力と非常に強力な一般化により、学界と産業界の両方から大きな注目を集めています。
ただし、現在の LLM は、固有の問題 (幻覚など) により、実際の推論タスクでは依然として信頼性の低い内容を出力します。
この問題をよりよく解明するために、この論文では、論理的推論における LLM の能力を系統的に調査するための詳細な調査を実施します。
より詳細には、まず、イベント関係の抽出や演繹的推論など、さまざまなタスクにおける論理的推論における LLM の欠陥を調査します。
私たちの研究は、LLM が厳密な推論でタスクを解決するのに優れた推論者ではなく、事実に反する答えを導き出すため、繰り返し改良する必要があることを示しています。
したがって、私たちは LLM に論理的推論能力を与え、さまざまなシナリオにわたってより論理的に一貫した答えを生成できるようにするためのさまざまな戦略を包括的に検討します。
私たちのアプローチに基づいて、評価と事前トレーニングのためのマルチホップ推論を含む合成データセット (LLM-LR) も提供します。
さまざまなタスクに関する広範な定量的および定性的分析により、LLM にロジックを教えることの有効性と必要性も検証され、将来の作業で LLM を使用して実践的なタスクを解決するための洞察が得られます。
要約(オリジナル)
Large language models (LLMs) have gained enormous attention from both academia and industry, due to their exceptional ability in language generation and extremely powerful generalization. However, current LLMs still output unreliable content in practical reasoning tasks due to their inherent issues (e.g., hallucination). To better disentangle this problem, in this paper, we conduct an in-depth investigation to systematically explore the capability of LLMs in logical reasoning. More in detail, we first investigate the deficiency of LLMs in logical reasoning on different tasks, including event relation extraction and deductive reasoning. Our study demonstrates that LLMs are not good reasoners in solving tasks with rigorous reasoning and will produce counterfactual answers, which require us to iteratively refine. Therefore, we comprehensively explore different strategies to endow LLMs with logical reasoning ability, and thus enable them to generate more logically consistent answers across different scenarios. Based on our approach, we also contribute a synthesized dataset (LLM-LR) involving multi-hop reasoning for evaluation and pre-training. Extensive quantitative and qualitative analyses on different tasks also validate the effectiveness and necessity of teaching LLMs with logic and provide insights for solving practical tasks with LLMs in future work.
arxiv情報
著者 | Meiqi Chen,Yubo Ma,Kaitao Song,Yixin Cao,Yan Zhang,Dongsheng Li |
発行日 | 2023-10-13 14:53:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google