What Is Near?: Room Locality Learning for Enhanced Robot Vision-Language-Navigation in Indoor Living Environments

要約

人間は、これまでの経験から得た一般的な家の間取りの知識を利用して、新しい環境で移動しながら近くの部屋を予測します。
これは、これまで見たことのない環境をナビゲートし、目的の部屋を見つけるのに非常に役立ちます。
人間の一般的な生活空間に基づいたレイアウトの事前知識をナビゲーション エージェントに提供するために、視覚言語ナビゲーション (VLN) の常識学習モデルである WIN (\textit{W}hat \textit{I}s \textit{N}ear) を提案します。
タスク。
VLN では、エージェントが説明的なナビゲーション指示に基づいて屋内環境を移動する必要があります。
既存のレイアウト学習とは異なり、WIN は生活空間に関する事前知識と現在の観察に基づいて、環境全体の想像上のグローバル マップ上で操作して、ローカルな近隣マップを予測します。
モデルは、現在の観察、ナビゲーション履歴、レイアウトの常識の視覚的な手がかりに基づいて近隣領域を推測します。
局所性の知識に基づいたローカル-グローバル計画と屋内レイアウトの予測により、エージェントが適切なアクションを効率的に選択できることを示します。
具体的には、視覚的な入力や指示に加えて、意思決定に事前にこの局所性を利用するクロスモーダル トランスフォーマーを考案しました。
実験結果は、WIN を使用した局所性学習が、目に見えない環境において従来の VLN エージェントと比較して優れた一般化性を提供することを示しています。
私たちのモデルは、標準的な VLN メトリクスで良好なパフォーマンスを示し、目に見えない環境での成功率は 68\%、パス長で重み付けされた成功は 63\% でした。

要約(オリジナル)

Humans use their knowledge of common house layouts obtained from previous experiences to predict nearby rooms while navigating in new environments. This greatly helps them navigate previously unseen environments and locate their target room. To provide layout prior knowledge to navigational agents based on common human living spaces, we propose WIN (\textit{W}hat \textit{I}s \textit{N}ear), a commonsense learning model for Vision Language Navigation (VLN) tasks. VLN requires an agent to traverse indoor environments based on descriptive navigational instructions. Unlike existing layout learning works, WIN predicts the local neighborhood map based on prior knowledge of living spaces and current observation, operating on an imagined global map of the entire environment. The model infers neighborhood regions based on visual cues of current observations, navigational history, and layout common sense. We show that local-global planning based on locality knowledge and predicting the indoor layout allows the agent to efficiently select the appropriate action. Specifically, we devised a cross-modal transformer that utilizes this locality prior for decision-making in addition to visual inputs and instructions. Experimental results show that locality learning using WIN provides better generalizability compared to classical VLN agents in unseen environments. Our model performs favorably on standard VLN metrics, with Success Rate 68\% and Success weighted by Path Length 63\% in unseen environments.

arxiv情報

著者 Muraleekrishna Gopinathan,Jumana Abu-Khalaf,David Suter,Sidike Paheding,Nathir A. Rawashdeh
発行日 2023-09-10 14:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.4.8 パーマリンク