Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps

要約

Open-Vocabulary Mobile Manipulation (OVMM) は、自律ロボットにとって、特に未知の動的な環境によってもたらされる課題に直面した場合に重要な機能です。
このタスクでは、ロボットが環境の意味的理解を探索して構築し、操作目標を達成するための実行可能な計画を作成し、環境の変化に適応し、人間からの自然言語の指示を理解する必要があります。
これらの課題に対処するために、私たちは、事前トレーニング視覚言語モデル (VLM) のゼロショット検出機能と根拠のある認識機能を、高密度 3D エンティティ再構築と組み合わせて 3D セマンティック マップを構築する新しいフレームワークを提案します。
さらに、空間領域の抽象化とオンライン プランニングに大規模言語モデル (LLM) を利用し、人間による指示と空間的な意味コンテキストを組み込んでいます。
私たちは 10-DoF モバイル操作ロボット プラットフォーム JSR-1 を構築し、提案したフレームワークが空間セマンティクスを効果的にキャプチャし、動的な環境設定の下でゼロショット OVMM タスクの自然言語ユーザー命令を処理できることを実世界のロボット実験で実証しました。
105 エピソードにわたる全体的なナビゲーションとタスクの成功率は 80.95% と 73.33% で、ベースラインと比較して SFT と SPL はそれぞれ 157.18% と 19.53% 向上しました。
さらに、このフレームワークは、初期計画が失敗した場合に、3D セマンティック マップから導出された空間意味コンテキストに基づいて、次に可能性の高い候補地に向けて再計画することができ、平均成功率 76.67% を維持します。

要約(オリジナル)

Open-Vocabulary Mobile Manipulation (OVMM) is a crucial capability for autonomous robots, especially when faced with the challenges posed by unknown and dynamic environments. This task requires robots to explore and build a semantic understanding of their surroundings, generate feasible plans to achieve manipulation goals, adapt to environmental changes, and comprehend natural language instructions from humans. To address these challenges, we propose a novel framework that leverages the zero-shot detection and grounded recognition capabilities of pretraining visual-language models (VLMs) combined with dense 3D entity reconstruction to build 3D semantic maps. Additionally, we utilize large language models (LLMs) for spatial region abstraction and online planning, incorporating human instructions and spatial semantic context. We have built a 10-DoF mobile manipulation robotic platform JSR-1 and demonstrated in real-world robot experiments that our proposed framework can effectively capture spatial semantics and process natural language user instructions for zero-shot OVMM tasks under dynamic environment settings, with an overall navigation and task success rate of 80.95% and 73.33% over 105 episodes, and better SFT and SPL by 157.18% and 19.53% respectively compared to the baseline. Furthermore, the framework is capable of replanning towards the next most probable candidate location based on the spatial semantic context derived from the 3D semantic map when initial plans fail, keeping an average success rate of 76.67%.

arxiv情報

著者 Dicong Qiu,Wenzong Ma,Zhenfu Pan,Hui Xiong,Junwei Liang
発行日 2024-06-26 07:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク