要約
人間とロボットの効果的な対話のために、ロボットは自然言語で記述された複雑で長期にわたるタスクを理解し、計画し、実行する必要があります。
大規模言語モデル (LLM) の最近の進歩により、自然言語を複雑なタスクのロボットのアクション シーケンスに変換できる可能性が示されています。
しかし、既存のアプローチは、自然言語をロボットの軌道に直接変換するか、言語をタスクのサブ目標に分解し、各サブ目標の実行をモーション プランナーに依存することによって推論プロセスを因数分解します。
複雑な環境的および時間的制約が関係する場合、計画タスクの推論は、従来のタスクと動作の計画 (TAMP) アルゴリズムを使用して動作計画と組み合わせて実行する必要があり、サブ目標への因数分解は維持できません。
LLM を使用してタスクのサブ目標を直接計画するのではなく、自然言語のタスク記述から中間タスク表現への数回の変換を実行し、TAMP アルゴリズムで使用してタスクと動作計画を共同で解決します。
翻訳を改善するために、自動回帰再プロンプトによって構文エラーと意味エラーの両方を自動的に検出して修正し、その結果、タスクの完了が大幅に向上します。
私たちのアプローチは、複雑なタスクドメインでプランナーとしてLLMを使用するいくつかの方法よりも優れていることを示します。
プロンプト、ビデオ、コードについては、プロジェクト Web サイト https://yongchao98.github.io/MIT-REALM-AutoTAMP/ を参照してください。
要約(オリジナル)
For effective human-robot interaction, robots need to understand, plan, and execute complex, long-horizon tasks described by natural language. Recent advances in large language models (LLMs) have shown promise for translating natural language into robot action sequences for complex tasks. However, existing approaches either translate the natural language directly into robot trajectories or factor the inference process by decomposing language into task sub-goals and relying on a motion planner to execute each sub-goal. When complex environmental and temporal constraints are involved, inference over planning tasks must be performed jointly with motion plans using traditional task-and-motion planning (TAMP) algorithms, making factorization into subgoals untenable. Rather than using LLMs to directly plan task sub-goals, we instead perform few-shot translation from natural language task descriptions to an intermediate task representation that can then be consumed by a TAMP algorithm to jointly solve the task and motion plan. To improve translation, we automatically detect and correct both syntactic and semantic errors via autoregressive re-prompting, resulting in significant improvements in task completion. We show that our approach outperforms several methods using LLMs as planners in complex task domains. See our project website https://yongchao98.github.io/MIT-REALM-AutoTAMP/ for prompts, videos, and code.
arxiv情報
著者 | Yongchao Chen,Jacob Arkin,Charles Dawson,Yang Zhang,Nicholas Roy,Chuchu Fan |
発行日 | 2024-03-22 00:21:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google