要約
大規模言語モデル(LLM)は様々な知的タスクにおいて大きな進歩を遂げてきたが、系統的な探索を必要とする複雑な行動推論タスクにはまだ苦戦している。この限界に対処するために、我々はLLMの自然言語理解能力とアクション言語の記号的推論の強みを橋渡しする方法を提案する。LLM+AL」と呼ばれる我々のアプローチは、符号化された知識に基づく自動推論におけるアクション言語の熟練と並んで、意味解析と常識的知識生成におけるLLMの強みを活用する。我々は、ChatGPT-4、Claude 3 Opus、Gemini Ultra 1.0、およびo1-previewを含む最先端のLLMとLLM+ALを、アクションに関する複雑な推論のベンチマークを用いて比較した。その結果、どの手法もエラーを示すが、LLM+ALは、比較的最小限の人間による修正で、一貫して正しい解答を導くのに対し、単独のLLMは、人間によるフィードバックがあっても改善されないことがわかった。LLM+ALはアクション言語の自動生成にも貢献する。
要約(オリジナル)
Large Language Models (LLMs) have made significant strides in various intelligent tasks but still struggle with complex action reasoning tasks that require systematic search. To address this limitation, we propose a method that bridges the natural language understanding capabilities of LLMs with the symbolic reasoning strengths of action languages. Our approach, termed ‘LLM+AL,’ leverages the LLM’s strengths in semantic parsing and commonsense knowledge generation alongside the action language’s proficiency in automated reasoning based on encoded knowledge. We compare LLM+AL against state-of-the-art LLMs, including ChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, and o1-preview, using benchmarks for complex reasoning about actions. Our findings indicate that, although all methods exhibit errors, LLM+AL, with relatively minimal human corrections, consistently leads to correct answers, whereas standalone LLMs fail to improve even with human feedback. LLM+AL also contributes to automated generation of action languages.
arxiv情報
著者 | Adam Ishay,Joohyung Lee |
発行日 | 2025-02-04 14:37:29+00:00 |
arxivサイト | arxiv_id(pdf) |