ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments




– ビジョン-言語ナビゲーションは、エージェントが環境内でのナビゲーションの指示に従うタスクであり、実体化されたAIの分野において重要であり、自律的なナビゲーション、捜索・救助、人間・ロボットの相互作用などの潜在的な応用がある。
– 本稿では、より実用的でありながらも挑戦的な設定である、連続環境におけるビジョン-言語ナビゲーション(VLN-CE)に対処することを提案する。
– ETPNavという新しいナビゲーションフレームワークを提案し、以下の2つの重要なスキルに焦点を当てて、頑健なVLN-CEエージェントを開発する。
– 環境を抽象化して長距離ナビゲーションプランを生成する能力
– 連続環境における障害物回避制御の能力
– ETPNavは、環境に関する事前の経験が必要なく、予測されたウェイポイントを走査した経路に沿って自己組織化型トポロジカルマッピングをオンラインで実行する。
– ETPNavは、ナビゲーション手順を高レベルのプランニングと低レベルのコントロールに分解することができる。
– 同時に、ETPNavは、トポロジカルマップと指示に基づいてナビゲーションプランを生成するトランスフォーマーベースのクロスモーダルプランナを利用する。
– プランは、障害物回避コントローラを通じて実行され、試行錯誤ヒューリスティックを利用して、ナビゲーションが障害物にはまらないようにする。
– 実験結果は、提案手法の有効性を示しており、ETPNavはR2R-CEおよびRxR-CEデータセットに対して、従来の最先端技術に対してそれぞれ10%以上、20%以上の改善をもたらす。
– ETPNavのコードは、で公開されている。


Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting – vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at


著者 Dong An,Hanqing Wang,Wenguan Wang,Zun Wang,Yan Huang,Keji He,Liang Wang
発行日 2023-04-07 04:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク