Iterative Vision-and-Language Navigation

要約

我々は、長期にわたる永続的な環境内をナビゲートする言語ガイド付きエージェントを評価するためのパラダイムである、反復ビジョンと言語ナビゲーション (IVLN) を紹介します。
既存のビジョンと言語ナビゲーション (VLN) ベンチマークは、各エピソードの開始時にエージェントの記憶を消去し、事前情報なしでコールドスタート ナビゲーションを実行する能力をテストします。
ただし、配備されたロボットは長期間同じ環境を占有します。
IVLN パラダイムは、それぞれが個別の言語指示とターゲット パスによって定義される、最大 100 の順序付けされた指示に従うルームツールーム (R2R) エピソードで構成されるシーンのツアー全体にわたって記憶を維持する VLN エージェントをトレーニングおよび評価することで、この不均衡に対処します。

80 の屋内シーンでそれぞれ約 400 のツアーで構成される、離散的および連続的な反復ルームツールーム (IR2R) ベンチマークを示します。
高性能のトランスフォーマー VLN エージェントの暗黙的メモリを拡張するだけでは IVLN には十分ではありませんが、マップを構築するエージェントは環境の永続性から恩恵を受けることができ、VLN でのマップ構築エージェントに改めて焦点を当てる動機となることがわかりました。

要約(オリジナル)

We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for evaluating language-guided agents navigating in a persistent environment over time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the agent’s memory at the beginning of every episode, testing the ability to perform cold-start navigation with no prior information. However, deployed robots occupy the same environment for long periods of time. The IVLN paradigm addresses this disparity by training and evaluating VLN agents that maintain memory across tours of scenes that consist of up to 100 ordered instruction-following Room-to-Room (R2R) episodes, each defined by an individual language instruction and a target path. We present discrete and continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours each in 80 indoor scenes. We find that extending the implicit memory of high-performing transformer VLN agents is not sufficient for IVLN, but agents that build maps can benefit from environment persistence, motivating a renewed focus on map-building agents in VLN.

arxiv情報

著者 Jacob Krantz,Shurjo Banerjee,Wang Zhu,Jason Corso,Peter Anderson,Stefan Lee,Jesse Thomason
発行日 2023-12-24 05:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク