要約
大規模言語モデル (LLM) は、自然言語処理、数学的問題解決、およびプログラム合成に関連するタスクにおいて顕著な能力を示しています。
しかし、長期計画や高次の推論におけるそれらの有効性は限られており、脆弱であることが指摘されています。
この論文では、ソルバーが生成したフィードバックを統合することで、古典的なロボット計画タスクを解決する際の LLM パフォーマンスを向上させるアプローチを検討します。
私たちは、視覚的なフィードバックを含むフィードバックを提供するための 4 つの異なる戦略を検討し、微調整を利用し、10 の標準問題とさらにランダムに生成された 100 の計画問題にわたって 3 つの異なる LLM のパフォーマンスを評価しました。
私たちの結果は、ソルバーが生成したフィードバックによって、中程度に難しい問題を解決する LLM の能力が向上しますが、より難しい問題には依然として手が届かないことを示唆しています。
この研究では、さまざまなヒンティング戦略の効果と、評価された LLM のさまざまな計画傾向の詳細な分析が提供されます。
要約(オリジナル)
Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, mathematical problem solving, and tasks related to program synthesis. However, their effectiveness in long-term planning and higher-order reasoning has been noted to be limited and fragile. This paper explores an approach for enhancing LLM performance in solving a classical robotic planning task by integrating solver-generated feedback. We explore four different strategies for providing feedback, including visual feedback, we utilize fine-tuning, and we evaluate the performance of three different LLMs across a 10 standard and 100 more randomly generated planning problems. Our results suggest that the solver-generated feedback improves the LLM’s ability to solve the moderately difficult problems, but the harder problems still remain out of reach. The study provides detailed analysis of the effects of the different hinting strategies and the different planning tendencies of the evaluated LLMs.
arxiv情報
著者 | Erik Wu,Sayan Mitra |
発行日 | 2024-10-07 14:00:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google