要約
視覚言語によるナビゲーションは、エージェントが指示に従って環境内を移動する必要があるタスクです。
これは、自律航法、捜索救助、人間とロボットの相互作用に応用できる可能性があり、身体化された AI の分野でますます重要になっています。
この論文では、より実用的だが挑戦的な対応設定である連続環境における視覚言語ナビゲーション (VLN-CE) に取り組むことを提案します。
堅牢な VLN-CE エージェントを開発するために、我々は新しいナビゲーション フレームワーク ETPNav を提案します。このフレームワークは 2 つの重要なスキルに焦点を当てています。1) 環境を抽象化し、長距離ナビゲーション プランを生成する機能、2) 障害物回避制御の機能です。
継続的な環境で。
ETPNav は、事前の環境経験がなくても、通過したパスに沿って予測されたウェイポイントを自己組織化することにより、環境のオンライン トポロジ マッピングを実行します。
これにより、エージェントはナビゲーション手順を高レベルの計画と低レベルの制御に分割することができます。
同時に、ETPNav は変圧器ベースのクロスモーダル プランナーを利用して、トポロジー マップと指示に基づいてナビゲーション プランを生成します。
次に、この計画は、ナビゲーションが障害物に引っかかるのを防ぐために試行錯誤のヒューリスティックを活用する障害物回避コントローラーを通じて実行されます。
実験結果は、提案された方法の有効性を示しています。
ETPNav は、R2R-CE および RxR-CE データセットに関して、従来の最先端技術と比較して、それぞれ 10% および 20% 以上の改善をもたらしました。
私たちのコードは https://github.com/MarSaKi/ETPNav で入手できます。
要約(オリジナル)
Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting – vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.
arxiv情報
著者 | Dong An,Hanqing Wang,Wenguan Wang,Zun Wang,Yan Huang,Keji He,Liang Wang |
発行日 | 2024-01-22 04:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google