Iterative Vision-and-Language Navigation

要約

我々は、言語誘導型エージェントを評価するためのパラダイムであるIterative Vision-and-Language Navigation (IVLN)を提案する。既存のVision-and-Language Navigation (VLN)ベンチマークでは、各エピソードの開始時にエージェントの記憶を消去し、事前情報なしでコールドスタートするナビゲーションの能力をテストしています。しかし、配備されたロボットは長期間にわたって同じ環境に滞在します。IVLNパラダイムは、このような不一致を解決するために、最大100個の命令に従うR2Rエピソード(各エピソードは個別の言語命令と目標経路で定義される)からなるシーンツアーを通じて記憶を維持するVLNエージェントを訓練・評価する。本発表では、80の室内シーンにおいて、それぞれ約400のツアーからなる離散的および連続的な反復Room-to-Room (IR2R) ベンチマークを提示する。我々は、高性能なトランスフォーマーVLNエージェントの暗黙の記憶を拡張することはIVLNには不十分であるが、地図を作成するエージェントは環境の持続性から利益を得られることを発見し、VLNにおける地図作成エージェントに再び注目する動機付けとなることを示した。

要約(オリジナル)

We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for evaluating language-guided agents navigating in a persistent environment over time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the agent’s memory at the beginning of every episode, testing the ability to perform cold-start navigation with no prior information. However, deployed robots occupy the same environment for long periods of time. The IVLN paradigm addresses this disparity by training and evaluating VLN agents that maintain memory across tours of scenes that consist of up to 100 ordered instruction-following Room-to-Room (R2R) episodes, each defined by an individual language instruction and a target path. We present discrete and continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours each in 80 indoor scenes. We find that extending the implicit memory of high-performing transformer VLN agents is not sufficient for IVLN, but agents that build maps can benefit from environment persistence, motivating a renewed focus on map-building agents in VLN.

arxiv情報

著者 Jacob Krantz,Shurjo Banerjee,Wang Zhu,Jason Corso,Peter Anderson,Stefan Lee,Jesse Thomason
発行日 2022-10-06 17:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク