AIGeN: An Adversarial Approach for Instruction Generation in VLN

要約

ここ数年、視覚と言語のナビゲーション (VLN) に対する研究への関心が大幅に高まっています。
VLN は、エージェントが人間の指示に従い、未知の環境をナビゲートして指定された目標を達成するという難しいタスクです。
最近の文献研究は、合成トレーニング データを利用してナビゲーション パフォーマンスを向上させるために、利用可能な命令のデータセットを増強するさまざまな方法に焦点を当てています。
この研究では、ナビゲーション エージェントのパフォーマンスを向上させるために意味のある適切な形式の合成命令を生成する、敵対的生成ネットワーク (GAN) からインスピレーションを得た新しいアーキテクチャである AIGeN を提案します。
モデルは、Transformer デコーダ (GPT-2) と Transformer エンコーダ (BERT) で構成されます。
トレーニング段階では、デコーダは特定の地点までのエージェントの経路を説明する一連の画像の文を生成し、エンコーダは本物の命令と偽の命令を識別します。
私たちは実験的に、生成された指示の品質を評価し、広範なアブレーション研究を実施します。
さらに、Habitat-Matterport 3D Dataset (HM3D) 上で AIGeN を使用して 217,000 軌道の合成命令を生成し、既製の VLN 手法のパフォーマンスの向上を示しました。
私たちの提案の検証分析は REVERIE と R2R で行われ、私たちの提案の有望な側面を強調し、最先端のパフォーマンスを実現します。

要約(オリジナル)

In the last few years, the research interest in Vision-and-Language Navigation (VLN) has grown significantly. VLN is a challenging task that involves an agent following human instructions and navigating in a previously unknown environment to reach a specified goal. Recent work in literature focuses on different ways to augment the available datasets of instructions for improving navigation performance by exploiting synthetic training data. In this work, we propose AIGeN, a novel architecture inspired by Generative Adversarial Networks (GANs) that produces meaningful and well-formed synthetic instructions to improve navigation agents’ performance. The model is composed of a Transformer decoder (GPT-2) and a Transformer encoder (BERT). During the training phase, the decoder generates sentences for a sequence of images describing the agent’s path to a particular point while the encoder discriminates between real and fake instructions. Experimentally, we evaluate the quality of the generated instructions and perform extensive ablation studies. Additionally, we generate synthetic instructions for 217K trajectories using AIGeN on Habitat-Matterport 3D Dataset (HM3D) and show an improvement in the performance of an off-the-shelf VLN method. The validation analysis of our proposal is conducted on REVERIE and R2R and highlights the promising aspects of our proposal, achieving state-of-the-art performance.

arxiv情報

著者 Niyati Rawal,Roberto Bigazzi,Lorenzo Baraldi,Rita Cucchiara
発行日 2024-04-15 18:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク