要約
大規模言語モデル (LLM) は、さまざまなタスクにわたって優れた機能を実証してきましたが、空間推論には苦労することがよくあります。
この論文では、LLM と回答セット プログラミング (ASP) の間の反復フィードバックを通じて LLM の空間推論能力を強化する、新しい神経記号フレームワークを紹介します。
StepGame と SparQA という 2 つのベンチマーク データセットでアプローチを評価し、(1) 直接プロンプト ベースライン、(2) Facts+Rules プロンプト、(3) 反復改良を伴う DSPy ベースの LLM+ASP パイプラインという 3 つの異なる戦略を実装します。
私たちの実験結果は、LLM+ASP パイプラインがベースライン手法を大幅に上回り、StepGame で平均 82%、SparQA で 69% の精度を達成し、直接プロンプトと比べてそれぞれ 40 ~ 50% と 8 ~ 15% の改善を示していることを示しています。
この成功は、次の 3 つの主要な革新によってもたらされました。(1) モジュール式パイプラインによるセマンティック解析と論理的推論の効果的な分離、(2) プログラム速度を向上させる LLM と ASP ソルバー間の反復フィードバック メカニズム、(3) 解析に対処する堅牢なエラー処理
、グラウンディング、故障の解決。
さらに、計算オーバーヘッドを削減しながら、複雑な SparQA データセットで同等のパフォーマンスを達成する軽量の代替手段として、Facts+Rules を提案します。さまざまな LLM アーキテクチャ (Deepseek、Llama3-70B、GPT-4.0 mini) にわたる分析により、フレームワークの汎用性が実証され、洞察が得られます。
実装の複雑さと推論能力の間のトレードオフを考慮し、より解釈可能で信頼性の高い AI システムの開発に貢献します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, yet they often struggle with spatial reasoning. This paper presents a novel neural-symbolic framework that enhances LLMs’ spatial reasoning abilities through iterative feedback between LLMs and Answer Set Programming (ASP). We evaluate our approach on two benchmark datasets: StepGame and SparQA, implementing three distinct strategies: (1) direct prompting baseline, (2) Facts+Rules prompting, and (3) DSPy-based LLM+ASP pipeline with iterative refinement. Our experimental results demonstrate that the LLM+ASP pipeline significantly outperforms baseline methods, achieving an average 82% accuracy on StepGame and 69% on SparQA, marking improvements of 40-50% and 8-15% respectively over direct prompting. The success stems from three key innovations: (1) effective separation of semantic parsing and logical reasoning through a modular pipeline, (2) iterative feedback mechanism between LLMs and ASP solvers that improves program rate, and (3) robust error handling that addresses parsing, grounding, and solving failures. Additionally, we propose Facts+Rules as a lightweight alternative that achieves comparable performance on complex SparQA dataset, while reducing computational overhead.Our analysis across different LLM architectures (Deepseek, Llama3-70B, GPT-4.0 mini) demonstrates the framework’s generalizability and provides insights into the trade-offs between implementation complexity and reasoning capability, contributing to the development of more interpretable and reliable AI systems.
arxiv情報
著者 | Rong Wang,Kun Sun,Jonas Kuhn |
発行日 | 2024-12-12 16:03:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google