Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning

要約

大規模言語モデル (LLM) の空間推論は、身体化されたインテリジェンスの基礎です。
しかし、単純な迷路環境であっても、LLM は依然として長期的な経路計画において課題に直面しており、主に長期的な推論による空間幻覚や文脈不一致幻覚の影響を受けます。
この課題に対処するために、この研究では、空間から関係への変換とカリキュラム Q ラーニング (S2RCQL) という革新的なモデルを提案します。
LLM の空間幻覚に対処するために、空間から関係へのアプローチを提案します。これは、空間プロンプトをエンティティ関係およびエンティティ関係チェーンを表すパスに変換します。
このアプローチは、逐次的思考の観点から LLM の可能性を最大限に活用します。
その結果、文脈不一致幻覚を軽減するための Q 学習に基づく経路計画アルゴリズムを設計し、LLM の推論能力を強化します。
プロンプトの補助情報として状態アクションの Q 値を使用して、LLM の幻覚を修正し、それによって LLM が最適なパスを学習するように導きます。
最後に、文脈不一致幻覚をさらに軽減するために、LLM に基づいた逆カリキュラム学習手法を提案します。
LLM は、タスクの難易度を下げ、それを活用してより複雑なタスクに取り組むことで、成功体験を迅速に蓄積できます。
Baidu が自社開発した LLM: ERNIE-Bot 4.0 に基づいて包括的な実験を実行しました。
その結果、当社の S2RCQL は、高度なプロンプト エンジニアリングと比較して、成功率と最適化率の両方で 23% ~ 40% の向上を達成したことがわかりました。

要約(オリジナル)

Spatial reasoning in Large Language Models (LLMs) is the foundation for embodied intelligence. However, even in simple maze environments, LLMs still encounter challenges in long-term path-planning, primarily influenced by their spatial hallucination and context inconsistency hallucination by long-term reasoning. To address this challenge, this study proposes an innovative model, Spatial-to-Relational Transformation and Curriculum Q-Learning (S2RCQL). To address the spatial hallucination of LLMs, we propose the Spatial-to-Relational approach, which transforms spatial prompts into entity relations and paths representing entity relation chains. This approach fully taps the potential of LLMs in terms of sequential thinking. As a result, we design a path-planning algorithm based on Q-learning to mitigate the context inconsistency hallucination, which enhances the reasoning ability of LLMs. Using the Q-value of state-action as auxiliary information for prompts, we correct the hallucinations of LLMs, thereby guiding LLMs to learn the optimal path. Finally, we propose a reverse curriculum learning technique based on LLMs to further mitigate the context inconsistency hallucination. LLMs can rapidly accumulate successful experiences by reducing task difficulty and leveraging them to tackle more complex tasks. We performed comprehensive experiments based on Baidu’s self-developed LLM: ERNIE-Bot 4.0. The results showed that our S2RCQL achieved a 23%–40% improvement in both success and optimality rates compared with advanced prompt engineering.

arxiv情報

著者 Hourui Deng,Hongjie Zhang,Jie Ou,Chaosheng Feng
発行日 2024-08-23 16:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク