Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill

要約

ゼロショット オブジェクト ナビゲーションは、在宅支援ロボットにとって困難なタスクです。
このタスクでは、視覚的なグラウンディング、常識的な推論、移動能力が重視されます。最初の 2 つは基礎モデルに固有のものです。
しかし、移動部分に関しては、ほとんどの作業が依然として地図ベースの計画アプローチに依存しています。
RGB 空間とマップ空間の間にギャップがあるため、基礎モデルからナビゲーション タスクに知識を直接転送することが困難になります。
この研究では、基礎モデルと具体化されたナビゲーション タスクの間のギャップを埋める、ピクセル ガイド付きナビゲーション スキル (PixNav) を提案します。
最近の基礎モデルではオブジェクトをピクセルで示すのは簡単で、ピクセルを目標仕様とすることで、私たちの方法はあらゆる種類のオブジェクトに対する汎用性の高いナビゲーション ポリシーになります。
さらに、当社の PixNav は純粋な RGB ベースのポリシーであり、在宅支援ロボットのコストを削減できます。
実験では、ローカル経路計画タスクで 80% 以上の成功率を達成する PixNav の堅牢性を実証しています。
長期のオブジェクト ナビゲーションを実行するために、オブジェクトと部屋の間の常識的な知識を利用して最適なウェイポイントを選択する LLM ベースのプランナーを設計します。
フォトリアリスティックな屋内シミュレータと現実世界の環境の両方にわたる評価により、提案したナビゲーション戦略の有効性が検証されます。
コードとビデオのデモは https://github.com/wzcai99/Pixel-Navigator で入手できます。

要約(オリジナル)

Zero-shot object navigation is a challenging task for home-assistance robots. This task emphasizes visual grounding, commonsense inference and locomotion abilities, where the first two are inherent in foundation models. But for the locomotion part, most works still depend on map-based planning approaches. The gap between RGB space and map space makes it difficult to directly transfer the knowledge from foundation models to navigation tasks. In this work, we propose a Pixel-guided Navigation skill (PixNav), which bridges the gap between the foundation models and the embodied navigation task. It is straightforward for recent foundation models to indicate an object by pixels, and with pixels as the goal specification, our method becomes a versatile navigation policy towards all different kinds of objects. Besides, our PixNav is a pure RGB-based policy that can reduce the cost of home-assistance robots. Experiments demonstrate the robustness of the PixNav which achieves 80+% success rate in the local path-planning task. To perform long-horizon object navigation, we design an LLM-based planner to utilize the commonsense knowledge between objects and rooms to select the best waypoint. Evaluations across both photorealistic indoor simulators and real-world environments validate the effectiveness of our proposed navigation strategy. Code and video demos are available at https://github.com/wzcai99/Pixel-Navigator.

arxiv情報

著者 Wenzhe Cai,Siyuan Huang,Guangran Cheng,Yuxing Long,Peng Gao,Changyin Sun,Hao Dong
発行日 2023-09-19 04:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク