ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings

要約

オープンワールドのオブジェクトゴールナビゲーション(ObjectNav)を学習するためのスケーラブルなアプローチを紹介します。これは、仮想ロボット(エージェント)に未踏の環境でオブジェクトのインスタンスを見つけるように依頼するタスクです(たとえば、「シンクを見つける」)。
私たちのアプローチは完全にゼロショットです。つまり、ObjectNavの報酬やいかなる種類のデモンストレーションも必要ありません。
代わりに、画像(つまり、目標画像)がキャプチャされた場所をエージェントが見つける画像目標ナビゲーション(ImageNav)タスクでトレーニングします。
具体的には、ゴール画像をマルチモーダルのセマンティック埋め込みスペースにエンコードして、注釈のない3D環境(HM3Dなど)でセマンティックゴールナビゲーション(SemanticNav)エージェントを大規模にトレーニングできるようにします。
トレーニング後、SemanticNavエージェントは、言語の目標を同じマルチモーダルでセマンティックな埋め込みスペースに投影することにより、自由形式の自然言語で記述されたオブジェクト(「シンク」、「バスルームシンク」など)を見つけるように指示できます。
その結果、私たちのアプローチはオープンワールドのObjectNavを可能にします。
3つのObjectNavデータセット(Gibson、HM3D、およびMP3D)でエージェントを広範囲に評価し、既存のゼロショットメソッドに比べて4.2%〜20.0%の成功の絶対的な改善を観察します。
参考までに、これらの向上は、Habitat 2020と2021のObjectNavチャレンジの勝者の間で成功した5%の向上と同等かそれ以上です。
オープンワールドの設定では、エージェントは、明示的に言及された部屋(例:「台所の流し台を探す」)と、対象の部屋を推測できる場合(例:「流し台とストーブを探す」)を組み合わせた指示に一般化できることがわかりました。
‘)。

要約(オリジナル)

We present a scalable approach for learning open-world object-goal navigation (ObjectNav) — the task of asking a virtual robot (agent) to find any instance of an object in an unexplored environment (e.g., ‘find a sink’). Our approach is entirely zero-shot — i.e., it does not require ObjectNav rewards or demonstrations of any kind. Instead, we train on the image-goal navigation (ImageNav) task, in which agents find the location where a picture (i.e., goal image) was captured. Specifically, we encode goal images into a multimodal, semantic embedding space to enable training semantic-goal navigation (SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D). After training, SemanticNav agents can be instructed to find objects described in free-form natural language (e.g., ‘sink’, ‘bathroom sink’, etc.) by projecting language goals into the same multimodal, semantic embedding space. As a result, our approach enables open-world ObjectNav. We extensively evaluate our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe absolute improvements in success of 4.2% – 20.0% over existing zero-shot methods. For reference, these gains are similar or better than the 5% improvement in success between the Habitat 2020 and 2021 ObjectNav challenge winners. In an open-world setting, we discover that our agents can generalize to compound instructions with a room explicitly mentioned (e.g., ‘Find a kitchen sink’) and when the target room can be inferred (e.g., ‘Find a sink and a stove’).

arxiv情報

著者 Arjun Majumdar,Gunjan Aggarwal,Bhavika Devnani,Judy Hoffman,Dhruv Batra
発行日 2022-06-24 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク