要約
視覚と言語のナビゲーション (VLN) により、エージェントは 3D 環境で自然言語の指示に従って遠隔地に移動できます。
各ナビゲーション ステップで、エージェントは候補となる場所から選択し、移動を実行します。
より良いナビゲーション計画を立てるために、先読み探索戦略は、候補場所の将来の環境を正確に予測することによって、エージェントの次のアクションを効果的に評価することを目的としています。
この目的を達成するために、既存の研究の中には将来の環境の RGB 画像を予測するものもありますが、この戦略には画像の歪みと高い計算コストが伴います。
これらの問題に対処するために、ピクセル単位の RGB 再構成よりも堅牢で効率的な、将来の環境向けのマルチレベルのセマンティック特徴を生成する事前トレーニング済みの階層型ニューラル放射輝度表現モデル (HNR) を提案します。
さらに、予測された将来の環境表現を使用して、先読み VLN モデルは、ナビゲート可能な将来のパス ツリーを構築し、効率的な並列評価によって最適なパスを選択することができます。
VLN-CE データセットに対する広範な実験により、私たちの手法の有効性が確認されました。
要約(オリジナル)
Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. At each navigation step, the agent selects from possible candidate locations and then makes the move. For better navigation planning, the lookahead exploration strategy aims to effectively evaluate the agent’s next action by accurately anticipating the future environment of candidate locations. To this end, some existing works predict RGB images for future environments, while this strategy suffers from image distortion and high computational cost. To address these issues, we propose the pre-trained hierarchical neural radiance representation model (HNR) to produce multi-level semantic features for future environments, which are more robust and efficient than pixel-wise RGB reconstruction. Furthermore, with the predicted future environmental representations, our lookahead VLN model is able to construct the navigable future path tree and select the optimal path via efficient parallel evaluation. Extensive experiments on the VLN-CE datasets confirm the effectiveness of our method.
arxiv情報
著者 | Zihan Wang,Xiangyang Li,Jiahao Yang,Yeqi Liu,Junjie Hu,Ming Jiang,Shuqiang Jiang |
発行日 | 2024-04-02 13:36:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google