要約
ロボットがますます有能になるにつれて、ユーザーは高レベルのミッションを説明し、ロボットに関連する詳細を推測したいと思うでしょう。
事前に構築されたマップは多くの現実的な設定で取得するのが難しいため、そのようなミッションを達成するには、ロボットがオンラインでマッピングおよび計画する必要があります。
多くのセマンティック計画方法はオンラインで動作しますが、通常、オブジェクト検索や探索などの適切に指定されたミッション向けに設計されています。
最近、大規模な言語モデル(LLMS)は、自然言語で説明されているさまざまなロボットタスクに対して強力なコンテキスト推論能力を実証しています。
ただし、既存のLLM対応プランナーは通常、オンライン計画や複雑なミッションを考慮しません。
むしろ、関連するサブタスクとセマンティクスは、事前に構築されたマップまたはユーザーによって提供されます。
これらの制限は、自然言語で提供される不完全なミッション仕様を伴うミッションのオンラインプランナーであるSpineを介して対処します。
プランナーはLLMを使用して、ミッション仕様によって暗示されているサブタスクについて推論し、これらのサブタスクを後退する地平線フレームワークで実現します。
タスクは安全性のために自動的に検証され、新しいマップの観察によりオンラインで洗練されます。
シミュレーションと現実世界の設定で脊椎を評価し、20,000mを超える$^2 $の散らかった屋外環境で、セマンティック推論と探索の複数のステップを必要とするミッションを使用します。
既存のLLM対応計画アプローチを使用するベースラインと比較して、私たちの方法は時間と距離の点で2倍の効率が高く、ユーザーの対話が少なく、完全なマップは必要ありません。
追加のリソースは、https://zacravichandran.github.io/spineで提供されます。
要約(オリジナル)
As robots become increasingly capable, users will want to describe high-level missions and have robots infer the relevant details. Because pre-built maps are difficult to obtain in many realistic settings, accomplishing such missions will require the robot to map and plan online. While many semantic planning methods operate online, they are typically designed for well specified missions such as object search or exploration. Recently, Large Language Models (LLMs) have demonstrated powerful contextual reasoning abilities over a range of robotic tasks described in natural language. However, existing LLM-enabled planners typically do not consider online planning or complex missions; rather, relevant subtasks and semantics are provided by a pre-built map or a user. We address these limitations via SPINE, an online planner for missions with incomplete mission specifications provided in natural language. The planner uses an LLM to reason about subtasks implied by the mission specification and then realizes these subtasks in a receding horizon framework. Tasks are automatically validated for safety and refined online with new map observations. We evaluate SPINE in simulation and real-world settings with missions that require multiple steps of semantic reasoning and exploration in cluttered outdoor environments of over 20,000m$^2$. Compared to baselines that use existing LLM-enabled planning approaches, our method is over twice as efficient in terms of time and distance, requires less user interactions, and does not require a full map. Additional resources are provided at https://zacravichandran.github.io/SPINE.
arxiv情報
著者 | Zachary Ravichandran,Varun Murali,Mariliza Tzes,George J. Pappas,Vijay Kumar |
発行日 | 2025-03-21 01:34:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google