Object Goal Navigation with Recursive Implicit Maps

要約

オブジェクト ゴール ナビゲーションは、目に見えない環境にある特定のオブジェクト カテゴリの場所にエージェントをナビゲートすることを目的としています。
古典的な方法では、環境のマップを明示的に構築し、広範なエンジニアリングを必要としますが、オブジェクト指向の探索のためのセマンティック情報が不足しています。
一方、エンドツーエンドの学習方法では、手動によるマップ設計が軽減され、暗黙的な表現を使用してアクションが予測されます。
ただし、このような方法にはジオメトリの明示的な概念が欠けており、ナビゲーション履歴をエンコードする能力が限られている可能性があります。
この研究では、オブジェクトの目標ナビゲーションのための暗黙的な空間マップを提案します。
暗黙的なマップは、トランスフォーマーを使用して各ステップで新しい観測値で再帰的に更新されます。
空間推論を促進するために、補助タスクを導入し、明示的なマップを再構築し、視覚的特徴、意味論的なラベル、およびアクションを予測するようにモデルをトレーニングします。
私たちの方法は、困難な MP3D データセットに対して最先端技術を大幅に上回り、HM3D データセットによく一般化します。
私たちはモデルを実際のロボットにデプロイすることに成功し、わずか数回の実世界のデモンストレーションを使用して、実際のシーンで有望なオブジェクト ゴール ナビゲーションの結果を達成しました。
コード、トレーニング済みモデル、ビデオは \url{https://www.di.ens.fr/willow/research/onav_rim/} で入手できます。

要約(オリジナル)

Object goal navigation aims to navigate an agent to locations of a given object category in unseen environments. Classical methods explicitly build maps of environments and require extensive engineering while lacking semantic information for object-oriented exploration. On the other hand, end-to-end learning methods alleviate manual map design and predict actions using implicit representations. Such methods, however, lack an explicit notion of geometry and may have limited ability to encode navigation history. In this work, we propose an implicit spatial map for object goal navigation. Our implicit map is recursively updated with new observations at each step using a transformer. To encourage spatial reasoning, we introduce auxiliary tasks and train our model to reconstruct explicit maps as well as to predict visual features, semantic labels and actions. Our method significantly outperforms the state of the art on the challenging MP3D dataset and generalizes well to the HM3D dataset. We successfully deploy our model on a real robot and achieve encouraging object goal navigation results in real scenes using only a few real-world demonstrations. Code, trained models and videos are available at \url{https://www.di.ens.fr/willow/research/onav_rim/}.

arxiv情報

著者 Shizhe Chen,Thomas Chabal,Ivan Laptev,Cordelia Schmid
発行日 2023-08-10 14:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク