Is Mapping Necessary for Realistic PointGoal Navigation?

要約

自律エージェントは、明示的な地図を作らずに新しい環境をナビゲートできるのか? 理想的な設定(RGB-Dと作動ノイズなし、完璧なGPS+コンパス)の下でのPointGoalナビゲーション(’Go to $enta Delta x$, $enta Delta y$’)のタスクについては、答えは明確に「イエス」である。大規模強化学習で訓練したタスク不可知論成分(CNNsとRNNs)からなる地図なしニューラルモデルでは、標準データセットで100%の成功率が得られた(ギブソン)。しかし、現実的な設定(RGB-Dと作動ノイズ、GPS+コンパスなし)でのPointNavについては、これは未解決の問題であり、我々はこの論文でそれに取り組みます。このタスクで公表されている最強の結果は、71.7%の成功率です。 まず、性能低下の主な(おそらく唯一の)原因であるGPS+Compassがないことを確認します。RGB-Dのセンシングと作動のノイズに直面したGPS+コンパスを完全に備えたエージェントは、99.8%のSuccess(Gibson-v2 val)を達成しました。このことから、(あるミームの言葉を借りれば)現実的なPointNavに必要なのは堅牢な視覚的オドメトリであり、それが達成できればセンシングとアクチュエーションのノイズは無視できることがわかります。 この仮説をもとに、データセットとモデルサイズを拡張し、視覚的オドメトリのモデルを学習するために、人間の注釈を必要としないデータ補強技術を開発しました。その結果、ハビタットリアルポイントナビチャレンジの成功率71%から94%(相対値23%増)、SPL53%から74%(相対値21%増)に向上させることができました。我々のアプローチは、このデータセットを飽和または「解決」するものではありませんが、この強力な改善と有望なゼロショットsim2real転送(LoCoBotへ)を組み合わせることにより、現実的な設定であっても、ナビゲーションに明示的マッピングは必要ないかもしれないという仮説に一致する証拠を提供します。

要約(オリジナル)

Can an autonomous agent navigate in a new environment without building an explicit map? For the task of PointGoal navigation (‘Go to $\Delta x$, $\Delta y$’) under idealized settings (no RGB-D and actuation noise, perfect GPS+Compass), the answer is a clear ‘yes’ – map-less neural models composed of task-agnostic components (CNNs and RNNs) trained with large-scale reinforcement learning achieve 100% Success on a standard dataset (Gibson). However, for PointNav in a realistic setting (RGB-D and actuation noise, no GPS+Compass), this is an open question; one we tackle in this paper. The strongest published result for this task is 71.7% Success. First, we identify the main (perhaps, only) cause of the drop in performance: the absence of GPS+Compass. An agent with perfect GPS+Compass faced with RGB-D sensing and actuation noise achieves 99.8% Success (Gibson-v2 val). This suggests that (to paraphrase a meme) robust visual odometry is all we need for realistic PointNav; if we can achieve that, we can ignore the sensing and actuation noise. With that as our operating hypothesis, we scale the dataset and model size, and develop human-annotation-free data-augmentation techniques to train models for visual odometry. We advance the state of art on the Habitat Realistic PointNav Challenge from 71% to 94% Success (+23, 31% relative) and 53% to 74% SPL (+21, 40% relative). While our approach does not saturate or ‘solve’ this dataset, this strong improvement combined with promising zero-shot sim2real transfer (to a LoCoBot) provides evidence consistent with the hypothesis that explicit mapping may not be necessary for navigation, even in a realistic setting.

arxiv情報

著者 Ruslan Partsey,Erik Wijmans,Naoki Yokoyama,Oles Dobosevych,Dhruv Batra,Oleksandr Maksymets
発行日 2022-06-07 08:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク