1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022)

要約

このレポートは、CVPR 2022でのRxR-ハビタットコンペティションの入賞方法を示しています。このコンペティションは、エージェントが段階的に従う必要がある連続環境での視覚と言語のナビゲーション(VLN-CE)の問題に対処します。
目標に到達するために自然言語の指示をステップします。
タスクのモジュール式の計画と制御のアプローチを提示します。
私たちのモデルは、候補ウェイポイント予測子(CWP)、履歴拡張プランナー、およびトライアウトコントローラーの3つのモジュールで構成されています。
各決定ループで、CWPは最初に、複数のビューからの深度観測に基づいて候補ウェイポイントのセットを予測します。
アクションスペースの複雑さを軽減し、計画を容易にすることができます。
次に、履歴が強化されたプランナーを採用して、候補となるウェイポイントの1つをサブゴールとして選択します。
プランナーはさらに、ナビゲーションの進行状況を追跡するために履歴メモリをエンコードします。これは、特に長期のナビゲーションに効果的です。
最後に、計画されたサブゴールに到達するために低レベルのアクションを実行するために、tryoutという名前のノンパラメトリックヒューリスティックコントローラーを提案します。
これは、エージェントが障害物を回避し、行き詰まりから逃れるのに役立つ試行錯誤のメカニズムに基づいています。
エージェントが停止するまで、3つのモジュールはすべて階層的に機能します。
さらに、Vision-and-Language Navigation(VLN)の最近のいくつかの進歩を利用して、大規模な合成ドメイン内データセットに基づく事前トレーニング、環境レベルのデータ拡張、スナップショットモデルアンサンブルなどのパフォーマンスを向上させます。
私たちのモデルは、RxR-ハビタットコンペティション2022で優勝し、NDTWおよびSRメトリックの既存の方法に比べてそれぞれ48%および90%の相対的な改善が見られました。

要約(オリジナル)

This report presents the methods of the winning entry of the RxR-Habitat Competition in CVPR 2022. The competition addresses the problem of Vision-and-Language Navigation in Continuous Environments (VLN-CE), which requires an agent to follow step-by-step natural language instructions to reach a target. We present a modular plan-and-control approach for the task. Our model consists of three modules: the candidate waypoints predictor (CWP), the history enhanced planner and the tryout controller. In each decision loop, CWP first predicts a set of candidate waypoints based on depth observations from multiple views. It can reduce the complexity of the action space and facilitate planning. Then, a history-enhanced planner is adopted to select one of the candidate waypoints as the subgoal. The planner additionally encodes historical memory to track the navigation progress, which is especially effective for long-horizon navigation. Finally, we propose a non-parametric heuristic controller named tryout to execute low-level actions to reach the planned subgoal. It is based on the trial-and-error mechanism which can help the agent to avoid obstacles and escape from getting stuck. All three modules work hierarchically until the agent stops. We further take several recent advances of Vision-and-Language Navigation (VLN) to improve the performance such as pretraining based on large-scale synthetic in-domain dataset, environment-level data augmentation and snapshot model ensemble. Our model won the RxR-Habitat Competition 2022, with 48% and 90% relative improvements over existing methods on NDTW and SR metrics respectively.

arxiv情報

著者 Dong An,Zun Wang,Yangguang Li,Yi Wang,Yicong Hong,Yan Huang,Liang Wang,Jing Shao
発行日 2022-06-23 10:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク