Vision-and-Language Navigation Generative Pretrained Transformer

要約

視覚と言語のナビゲーション (VLN) フィールドでは、エージェントは言語指示に従って現実世界のシーンをナビゲートする任務を負います。
エージェントがナビゲーションのプロセス全体を通じて指示に従うことができるようにすることは、VLN の領域内で重大な課題となります。
この課題に対処するために、一般的なアプローチでは、エンコーダーに依存して過去の位置とアクションを明示的に記録することが多く、モデルの複雑さとリソースの消費が増加します。
私たちの提案である Vision-and-Language Navigation Generative Pretrained Transformer (VLN-GPT) は、軌跡シーケンスの依存関係をモデル化するためにトランスフォーマー デコーダー モデル (GPT2) を採用し、履歴エンコード モジュールの必要性を回避します。
この方法により、軌跡シーケンスを通じて履歴情報に直接アクセスできるようになり、効率が向上します。
さらに、私たちのモデルは、トレーニング プロセスを模倣学習によるオフラインの事前トレーニングと強化学習によるオンラインの微調整に分離します。
この区別により、トレーニングの目的をより集中させ、パフォーマンスを向上させることができます。
VLN データセットのパフォーマンス評価により、VLN-GPT が複雑な最先端のエンコーダーベースのモデルを上回っていることが明らかになりました。

要約(オリジナル)

In the Vision-and-Language Navigation (VLN) field, agents are tasked with navigating real-world scenes guided by linguistic instructions. Enabling the agent to adhere to instructions throughout the process of navigation represents a significant challenge within the domain of VLN. To address this challenge, common approaches often rely on encoders to explicitly record past locations and actions, increasing model complexity and resource consumption. Our proposal, the Vision-and-Language Navigation Generative Pretrained Transformer (VLN-GPT), adopts a transformer decoder model (GPT2) to model trajectory sequence dependencies, bypassing the need for historical encoding modules. This method allows for direct historical information access through trajectory sequence, enhancing efficiency. Furthermore, our model separates the training process into offline pre-training with imitation learning and online fine-tuning with reinforcement learning. This distinction allows for more focused training objectives and improved performance. Performance assessments on the VLN dataset reveal that VLN-GPT surpasses complex state-of-the-art encoder-based models.

arxiv情報

著者 Wen Hanlin
発行日 2024-05-27 09:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク