Empowering LLMs with Logical Reasoning: A Comprehensive Survey

要約

大規模な言語モデル(LLM)は、さまざまな自然言語タスクで顕著な成功を収めています。
しかし、最近の研究では、LLMSの論理的推論能力には依然として重要な課題があることがわかっています。
このペーパーでは、主な課題を2つの側面にまとめて分類します。(1)論理的な質問の回答、LLMは、施設と制約のコレクションを考慮して、洗練された演ductive、帰納的、または誘惑的な推論を必要とする複雑な論理問題の中で正解を生成できないことがよくあります。
(2)論理的な一貫性、LLMは、異なる質問にわたって自分自身と矛盾する応答を生成する傾向があります。
たとえば、最先端のコンゴウイング質問LLMの回答は、両方の質問にYESの回答があり、カササギは鳥ですか?
鳥には翼がありますか?
しかし、カササギには翼がありますか?
この研究の方向性を促進するために、最も最先端の方法を包括的に調査し、これらの方法の詳細な分類法を提案します。
具体的には、複雑なロジックの質問に正確に答えるために、以前の方法は、外部のソルバー、プロンプト、前登録、および微調整に依存することに基づいて分類できます。
論理的な矛盾を避けるために、含意、否定、推移性、事実の一貫性、その複合材料など、さまざまな論理的一貫性の概念と解決策について説明します。
さらに、一般的に使用されるベンチマークデータセットと評価メトリックをレビューし、不確実性を説明するためにモーダルロジックの拡張などの有望な研究の方向性、および複数の論理的一貫性を同時に満たす効率的なアルゴリズムについて説明します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable successes on various natural language tasks. However, recent studies have found that there are still significant challenges to the logical reasoning abilities of LLMs. This paper summarizes and categorizes the main challenges into two aspects: (1) Logical question answering, LLMs often fail to generate the correct answer within complex logical problem which requires sophisticated deductive, inductive or abductive reasoning given a collection of premises and constrains. (2) Logical consistency, LLMs are prone to producing responses contradicting themselves across different questions. For example, a state-of-the-art Macaw question-answering LLM answers Yes to both questions Is a magpie a bird? and Does a bird have wings? but answers No to Does a magpie have wings?. To facilitate this research direction, we comprehensively investigate the most cutting-edge methods and propose detailed taxonomies of these methods. Specifically, to accurately answer complex logic questions, previous methods can be categorized based on reliance on external solvers, prompts, pretraining, and fine-tuning. To avoid logical contradictions, we discuss concepts and solutions of various logical consistencies, including implication, negation, transitivity, factuality consistency, and their composites. In addition, we review commonly used benchmark datasets and evaluation metrics, and discuss promising research directions, such as extensions to modal logic to account for uncertainty, and efficient algorithms satisfying multiple logical consistencies simultaneously.

arxiv情報

著者 Fengxiang Cheng,Haoxuan Li,Fenrong Liu,Robert van Rooij,Kun Zhang,Zhouchen Lin
発行日 2025-02-21 18:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク