$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models

要約

私たちは、ゼロショット視覚と言語によるナビゲーション (ZS-VLN) のタスクを研究します。これは、経路命令の注釈データを必要とせずに、エージェントが言語命令によって記述された経路に従ってナビゲーションすることを学習する、実用的だが挑戦的な問題です。
通常、指示には複雑な文法構造があり、多くの場合、さまざまな動作の説明 (「先に進む」、「出発する」など) が含まれます。
これらのアクション要求をどのように正しく理解して実行するかは重要な問題ですが、注釈付きデータが存在しないため、それはさらに困難になります。
十分な教育を受けた人間であれば、特別な訓練を必要とせずにパスの指示を簡単に理解できることに注意してください。
この論文では、基礎モデルの視覚および言語能力を活用することにより、アクションを意識したゼロショット VLN 法 ($A^2$Nav) を提案します。
具体的には、提案された方法は命令パーサーとアクション認識ナビゲーション ポリシーで構成されます。
命令パーサーは、大規模言語モデル (GPT-3 など) の高度な推論能力を利用して、複雑なナビゲーション命令を一連のアクション固有のオブジェクト ナビゲーション サブタスクに分解します。
各サブタスクでは、エージェントがオブジェクトの位置を特定し、関連するアクション要求に従って特定の目標位置に移動する必要があります。
これらのサブタスクを達成するために、アクション認識ナビゲーション ポリシーは、各アクション要求の明確な特性を明らかにする自由に収集されたアクション固有のデータセットから学習されます。
学習したナビゲーション ポリシーを使用して、ナビゲーション指示に従ってサブタスクを順番に実行します。
広範な実験により、$A^2$Nav が有望な ZS-VLN パフォーマンスを達成し、R2R-Habitat および RxR-Habitat データセットでの教師あり学習手法をも上回ることが示されました。

要約(オリジナル)

We study the task of zero-shot vision-and-language navigation (ZS-VLN), a practical yet challenging problem in which an agent learns to navigate following a path described by language instructions without requiring any path-instruction annotation data. Normally, the instructions have complex grammatical structures and often contain various action descriptions (e.g., ‘proceed beyond’, ‘depart from’). How to correctly understand and execute these action demands is a critical problem, and the absence of annotated data makes it even more challenging. Note that a well-educated human being can easily understand path instructions without the need for any special training. In this paper, we propose an action-aware zero-shot VLN method ($A^2$Nav) by exploiting the vision-and-language ability of foundation models. Specifically, the proposed method consists of an instruction parser and an action-aware navigation policy. The instruction parser utilizes the advanced reasoning ability of large language models (e.g., GPT-3) to decompose complex navigation instructions into a sequence of action-specific object navigation sub-tasks. Each sub-task requires the agent to localize the object and navigate to a specific goal position according to the associated action demand. To accomplish these sub-tasks, an action-aware navigation policy is learned from freely collected action-specific datasets that reveal distinct characteristics of each action demand. We use the learned navigation policy for executing sub-tasks sequentially to follow the navigation instruction. Extensive experiments show $A^2$Nav achieves promising ZS-VLN performance and even surpasses the supervised learning methods on R2R-Habitat and RxR-Habitat datasets.

arxiv情報

著者 Peihao Chen,Xinyu Sun,Hongyan Zhi,Runhao Zeng,Thomas H. Li,Gaowen Liu,Mingkui Tan,Chuang Gan
発行日 2023-08-15 19:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク