要約
大規模な言語モデル(LLM)は、幅広いタスクで驚くべき結果を達成します。
しかし、彼らの正式な推論能力はまだ遅れています。
有望なアプローチは、神経症のLLM推論です。
LLMを自然な言語から正式な言語、シンボリックソルバーから翻訳者として使用して、正しい結果を導き出すことで機能します。
それでも、神経反応質LLMの推論の成功への寄与要因が何であるかは不明のままです。
この論文は、1つの重要な要素が正式な言語の選択であることを示しています。
6 LLMを超える3つのデータセットで4つの正式な言語を比較することにより、正式な言語の選択が構文とセマンティックの推論機能の両方に影響することを示します。
それにより、中間言語の課題を紹介します。これは、神経症の推論に適した正式な言語を選ぶという課題です。
さらに、アブレーション研究で異なるコンテキスト学習例を使用する効果を比較します。
コメントやマークダウン構文を使用することの明らかな効果はありませんが、平均してコンテキスト認識のエンコーディングがLLMが推論するのに役立つと結論付けます。
要約(オリジナル)
Large language models (LLMs) achieve astonishing results on a wide range of tasks. However, their formal reasoning ability still lags behind. A promising approach is Neurosymbolic LLM reasoning. It works by using LLMs as translators from natural to formal languages and symbolic solvers for deriving correct results. Still, it remains unclear what the contributing factors to the success of Neurosymbolic LLM reasoning are. This paper shows that one important factor is the choice of the formal language. By comparing 4 formal languages on 3 datasets over 6 LLMs, we show that the choice of formal language affects both the syntactic and the semantic reasoning capability. Thereby, we introduce the intermediate language challenge, which is the challenge of picking a suitable formal language for neurosymbolic reasoning. Further, we compare the effects of using different in-context-learning examples in an ablation study. We conclude that on average, context-aware encodings help LLMs to reason, while there is no apparent effect of using comments or markdown syntax.
arxiv情報
著者 | Alexander Beiser,David Penz,Nysret Musliu |
発行日 | 2025-05-21 15:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google