ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings

要約

我々は、オープンワールド オブジェクト ゴール ナビゲーション (ObjectNav) を学習するためのスケーラブルなアプローチを提案します。これは、仮想ロボット (エージェント) に、未踏の環境でオブジェクトのインスタンスを見つけるように依頼するタスクです (例: 「シンクを見つける」)。
私たちのアプローチは完全にゼロショットです。つまり、ObjectNav の報酬やいかなる種類のデモンストレーションも必要ありません。
代わりに、エージェントが画像 (つまり、ゴール画像) がキャプチャされた場所を見つける画像ゴール ナビゲーション (ImageNav) タスクでトレーニングします。
具体的には、目標画像をマルチモーダルなセマンティック埋め込み空間にエンコードして、アノテーションのない 3D 環境 (HM3D など) でセマンティック ゴール ナビゲーション (SemanticNav) エージェントを大規模にトレーニングできるようにします。
トレーニング後、SemanticNav エージェントは、言語目標を同じマルチモーダルなセマンティック埋め込み空間に投影することによって、自由形式の自然言語で記述されたオブジェクト (「シンク」、「バスルームのシンク」など) を見つけるように指示できます。
結果として、私たちのアプローチはオープンワールドの ObjectNav を可能にします。
私たちは 3 つの ObjectNav データセット (Gibson、HM3D、MP3D) でエージェントを広範囲に評価し、既存のゼロショット手法と比較して 4.2% ~ 20.0% の絶対的な成功率の向上を観察しました。
参考までに、これらの利益は、Habitat 2020 と 2021 ObjectNav チャレンジの勝者間の成功率の 5% の向上と同等か、それよりも優れています。
オープンワールド環境では、エージェントが明示的に言及された部屋 (例: 「キッチンのシンクを見つける」) と、ターゲットの部屋が推測できる場合 (例: 「シンクとコンロを見つける」) を組み合わせた指示を一般化できることがわかりました。
‘)。

要約(オリジナル)

We present a scalable approach for learning open-world object-goal navigation (ObjectNav) — the task of asking a virtual robot (agent) to find any instance of an object in an unexplored environment (e.g., ‘find a sink’). Our approach is entirely zero-shot — i.e., it does not require ObjectNav rewards or demonstrations of any kind. Instead, we train on the image-goal navigation (ImageNav) task, in which agents find the location where a picture (i.e., goal image) was captured. Specifically, we encode goal images into a multimodal, semantic embedding space to enable training semantic-goal navigation (SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D). After training, SemanticNav agents can be instructed to find objects described in free-form natural language (e.g., ‘sink’, ‘bathroom sink’, etc.) by projecting language goals into the same multimodal, semantic embedding space. As a result, our approach enables open-world ObjectNav. We extensively evaluate our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe absolute improvements in success of 4.2% – 20.0% over existing zero-shot methods. For reference, these gains are similar or better than the 5% improvement in success between the Habitat 2020 and 2021 ObjectNav challenge winners. In an open-world setting, we discover that our agents can generalize to compound instructions with a room explicitly mentioned (e.g., ‘Find a kitchen sink’) and when the target room can be inferred (e.g., ‘Find a sink and a stove’).

arxiv情報

著者 Arjun Majumdar,Gunjan Aggarwal,Bhavika Devnani,Judy Hoffman,Dhruv Batra
発行日 2023-10-13 03:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク