Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches

要約

論理的推論タスクは、大規模な言語モデル(LLM)への挑戦として現れます。
神経共和生のアプローチでは、LLMSを使用して、自然言語で定式化された論理推論の問題を正式な中間言語に変換します。
その後、象徴的な推論者の使用により、信頼できる解決が得られます。
ただし、LLMは、選択された中間言語のために翻訳に失敗することがよくあります。
中間言語の問題を紹介します。これは、神経症のアプローチに適した正式な言語表現を選択する問題です。
理論的には、その起源は、SymanticsとSemanticsとその表現との相対的な独立性を区別するLLMSが識別できないことにあると主張します。
2つの中間言語、回答セットプログラミングとPythonナレッジエンジンを対比することにより、その存在を実験的に紹介します。
さらに、さまざまな程度の補足コンテキスト情報の効果を示します。
我々の結果は、実行と49.26%の全体的な精度に最大の差を示しています。
GPT4O-MINI LLMを使用すると、ProntoQAデータセットの全体的なアクセラリティの最先端を21.20%、Proofwriterデータセットで50.50%打ち負かしました。

要約(オリジナル)

Logical reasoning tasks manifest themselves as a challenge to Large Language Models (LLMs). Neurosymbolic approaches use LLMs to translate logical reasoning problems formulated in natural language into a formal intermediate language. Subsequently, the usage of symbolic reasoners yields reliable solving thereof. However, LLMs often fail in translation due to poorly chosen intermediate languages. We introduce the intermediate language problem, which is the problem of choosing a suitable formal language representation for neurosymbolic approaches. Theoretically, we argue that its origins lie in the inability of LLMs to distinguish syntax from semantics and the relative independence of the problem from its representation. We showcase its existence experimentally by contrasting two intermediate languages, Answer Set Programming and the Python Knowledge Engine. In addition, we demonstrate the effects of varying degrees of supplementary context information. Our results show a maximum difference in overall-accuracy of 53.20% and 49.26% in execution-accuracy. When using the GPT4o-mini LLM we beat the state-of-the-art in overall-accuracy on the ProntoQA dataset by 21.20% and by 50.50% on the ProofWriter dataset.

arxiv情報

著者 Alexander Beiser,David Penz
発行日 2025-02-24 14:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク