OrionNav: Online Planning for Robot Autonomy with Context-Aware LLM and Open-Vocabulary Semantic Scene Graphs

要約

ロボットが未知の複雑で動的な環境を自律的に移動し、さまざまなタスクを実行できるようにすることは、堅牢な自律物理エージェントを開発する上で依然として基本的な課題です。
これらのエージェントは、世界の知識を意思決定に活用しながら、周囲の環境を効果的に認識する必要があります。
最近のアプローチは、シーンの理解と計画にビジョン言語モデルと大規模言語モデルを利用していますが、多くの場合、オフライン処理、オフボード コンピューティングに依存し、環境と知覚に関する仮定を単純化し、現実世界への適用性を制限しています。
私たちは、認識パイプラインと計画パイプラインの両方にマルチレベルの抽象化を統合することで、時間の経過とともに変化する未知の環境におけるリアルタイムのオンボード自律ナビゲーションのための新しいフレームワークを提案します。
私たちのシステムは、位置特定とマッピングのために複数のオンボードセンサーからのデータを融合し、それをオープン語彙セマンティクスと統合して、継続的に更新されるセマンティックオブジェクトマップから階層的なシーングラフを生成します。
LLM ベースのプランナーは、これらのグラフを使用して、自然言語で指定されたナビゲーション タスクを実行する際に下位レベルのコントローラーをガイドする複数ステップのプランを作成します。
システムのリアルタイム操作により、LLM はシーン グラフとタスクの実行ステータスの更新に基づいて計画を調整できるため、新しい状況や現在の計画ではタスクを達成できない場合に継続的に適応できます。これは、静的またはルールベースに比べて大きな利点です。
システム。
私たちは、四足歩行の動的環境におけるシステムの有効性を実証し、さまざまなシナリオにおける適応性と堅牢性を示します。

要約(オリジナル)

Enabling robots to autonomously navigate unknown, complex, dynamic environments and perform diverse tasks remains a fundamental challenge in developing robust autonomous physical agents. These agents must effectively perceive their surroundings while leveraging world knowledge for decision-making. Although recent approaches utilize vision-language and large language models for scene understanding and planning, they often rely on offline processing, offboard compute, make simplifying assumptions about the environment and perception, limiting real-world applicability. We present a novel framework for real-time onboard autonomous navigation in unknown environments that change over time by integrating multi-level abstraction in both perception and planning pipelines. Our system fuses data from multiple onboard sensors for localization and mapping and integrates it with open-vocabulary semantics to generate hierarchical scene graphs from continuously updated semantic object map. The LLM-based planner uses these graphs to create multi-step plans that guide low-level controllers in executing navigation tasks specified in natural language. The system’s real-time operation enables the LLM to adjust its plans based on updates to the scene graph and task execution status, ensuring continuous adaptation to new situations or when the current plan cannot accomplish the task, a key advantage over static or rule-based systems. We demonstrate our system’s efficacy on a quadruped navigating dynamic environments, showcasing its adaptability and robustness in diverse scenarios.

arxiv情報

著者 Venkata Naren Devarakonda,Raktim Gautam Goswami,Ali Umut Kaypak,Naman Patel,Rooholla Khorrambakht,Prashanth Krishnamurthy,Farshad Khorrami
発行日 2024-10-23 02:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク