要約
ロボットエージェントの自然言語(NL)コマンドの理解と実行を強化する大規模な言語モデル(LLMS)の大幅な進歩にもかかわらず、特に複雑なコマンドや長期タスクの場合、エージェントがユーザー指定の制約に従うことを保証します。
この課題に対処するために、3つの重要な洞察、同等の投票、制約付きデコード、およびドメイン固有の微調整を提示します。これにより、複雑なタスクの処理におけるLLMプランナーの機能が大幅に向上します。
等価投票は、NLコマンドから複数の線形時間論的論理(LTL)式を生成およびサンプリングし、同等のLTL式をグループ化し、最終LTL式として式の多数型グループを選択することにより、一貫性を保証します。
制約付きデコードは、生成されたLTL式を使用して、計画の自己回帰推論を実施し、生成された計画がLTLに適合するようにします。
ドメイン固有の微調整は、LLMをカスタマイズして、特定のタスクドメイン内で安全で効率的な計画を作成します。
当社のアプローチであるSafe Efficive LLM Planner(SELP)は、これらの洞察を組み合わせてLLMプランナーを作成して、自信を持ってユーザーコマンドを順守する計画を生成します。
ドローンナビゲーションやロボット操作など、さまざまなロボットエージェントとタスクにわたるSELPの有効性と一般化可能性を実証します。
ドローンナビゲーションタスクの場合、SELPは、最先端のプランナーを安全レートで10.8%(つまり、NLコマンドに準拠した仕上げタスク)よりも19.8%上回ります。
ロボット操作タスクの場合、SELPは安全レートの20.4%の改善を達成します。
NL-to-LTLおよびロボットタスク計画を評価するためのデータセットは、github.com/lt-asset/selpでリリースされます。
要約(オリジナル)
Despite significant advancements in large language models (LLMs) that enhance robot agents’ understanding and execution of natural language (NL) commands, ensuring the agents adhere to user-specified constraints remains challenging, particularly for complex commands and long-horizon tasks. To address this challenge, we present three key insights, equivalence voting, constrained decoding, and domain-specific fine-tuning, which significantly enhance LLM planners’ capability in handling complex tasks. Equivalence voting ensures consistency by generating and sampling multiple Linear Temporal Logic (LTL) formulas from NL commands, grouping equivalent LTL formulas, and selecting the majority group of formulas as the final LTL formula. Constrained decoding then uses the generated LTL formula to enforce the autoregressive inference of plans, ensuring the generated plans conform to the LTL. Domain-specific fine-tuning customizes LLMs to produce safe and efficient plans within specific task domains. Our approach, Safe Efficient LLM Planner (SELP), combines these insights to create LLM planners to generate plans adhering to user commands with high confidence. We demonstrate the effectiveness and generalizability of SELP across different robot agents and tasks, including drone navigation and robot manipulation. For drone navigation tasks, SELP outperforms state-of-the-art planners by 10.8% in safety rate (i.e., finishing tasks conforming to NL commands) and by 19.8% in plan efficiency. For robot manipulation tasks, SELP achieves 20.4% improvement in safety rate. Our datasets for evaluating NL-to-LTL and robot task planning will be released in github.com/lt-asset/selp.
arxiv情報
著者 | Yi Wu,Zikang Xiong,Yiran Hu,Shreyash S. Iyengar,Nan Jiang,Aniket Bera,Lin Tan,Suresh Jagannathan |
発行日 | 2025-02-14 02:40:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google