要約
タイトル:継続的な環境におけるビジョン言語ナビゲーションの進化的トポロジー計画(ETPNav)
要約:
– ビジョン言語ナビゲーションは、環境内でのナビゲーション指示に従うエージェントのタスクであり、具体的には自律ナビゲーション、捜索救助、人間とロボットの対話に潜在的な応用がある。
– 本論文では、より実用的でありながら困難なVLN-CEの設定に対処するため、ETPNavという新しいナビゲーションフレームワークを提案する。
– ETPNavは、2つの重要なスキルに焦点を当てたロバストなVLN-CEエージェントを開発することを目的としている。1つは環境の抽象化と長距離ナビゲーションプランの生成能力、もう1つは継続的な環境での障害物回避制御能力である。
– ETPNavは、環境をセルフオーガナイズされた予測されたウェイポイントに沿ってトポロジーマッピングすることで、事前の環境経験無しにオンラインで実行可能である。
– 同時に、ETPNavはトランスフォーマーベースのクロスモーダルプランナを使用して、トポロジーマップと指示に基づくナビゲーションプランを生成する。その後、計画は障害物回避コントローラを介して実行され、トライアンドエラーのヒューリスティックを利用してナビゲーションが障害物に詰まるのを防ぐ。
– 実験結果は、ETPNavの提案手法が効果的であることを示している。ETPNavは、従来のR2R-CEおよびRxR-CEデータセットに比べ、それぞれ10%以上および20%以上の改善を示した。本研究のコードはhttps://github.com/MarSaKi/ETPNavで入手可能である。
要約(オリジナル)
Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting – vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.
arxiv情報
著者 | Dong An,Hanqing Wang,Wenguan Wang,Zun Wang,Yan Huang,Keji He,Liang Wang |
発行日 | 2023-04-06 13:07:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI