要約
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートする具現化エージェントの開発を目指している。しかし、現在のVLNフレームワークは、静的な環境と最適な専門家の監視に依存していることが多く、実世界への適用が制限されている。この問題に対処するため、我々は、人間の動的な活動を取り入れ、主要な仮定を緩和することにより、従来のVLNを拡張する、人間認識視覚言語ナビゲーション(Human-Aware Vision-and-Language Navigation:HA-VLN)を導入する。我々は、動的な人間の活動とMatterport3Dデータセットを組み合わせたHuman-Aware 3D (HA3D)シミュレータと、人間の活動記述によりR2Rを拡張したHuman-Aware Room-to-Room (HA-R2R)データセットを提案する。HA-VLNの課題に取り組むため、我々は、動的な人間環境における効果的なナビゲーションのためのクロスモーダル融合と多様な学習戦略を利用した、エキスパート教師ありクロスモーダル(VLN-CM)エージェントと非エキスパート教師ありデシジョントランスフォーマー(VLN-DT)エージェントを紹介する。人間の活動を考慮した指標を含む包括的な評価と、HA-VLN特有の課題の体系的な分析により、HA-VLNエージェントの実世界での頑健性と適応性を高めるための更なる研究の必要性が強調された。最終的に、この研究は、具現化されたAIとSim2Real転送に関する将来の研究にベンチマークと洞察を提供し、人間が多く住む環境において、より現実的で適用可能なVLNシステムへの道を開くものである。
要約(オリジナル)
Vision-and-Language Navigation (VLN) aims to develop embodied agents that navigate based on human instructions. However, current VLN frameworks often rely on static environments and optimal expert supervision, limiting their real-world applicability. To address this, we introduce Human-Aware Vision-and-Language Navigation (HA-VLN), extending traditional VLN by incorporating dynamic human activities and relaxing key assumptions. We propose the Human-Aware 3D (HA3D) simulator, which combines dynamic human activities with the Matterport3D dataset, and the Human-Aware Room-to-Room (HA-R2R) dataset, extending R2R with human activity descriptions. To tackle HA-VLN challenges, we present the Expert-Supervised Cross-Modal (VLN-CM) and Non-Expert-Supervised Decision Transformer (VLN-DT) agents, utilizing cross-modal fusion and diverse training strategies for effective navigation in dynamic human environments. A comprehensive evaluation, including metrics considering human activities, and systematic analysis of HA-VLN’s unique challenges, underscores the need for further research to enhance HA-VLN agents’ real-world robustness and adaptability. Ultimately, this work provides benchmarks and insights for future research on embodied AI and Sim2Real transfer, paving the way for more realistic and applicable VLN systems in human-populated environments.
arxiv情報
著者 | Minghan Li,Heng Li,Zhi-Qi Cheng,Yifei Dong,Yuxuan Zhou,Jun-Yan He,Qi Dai,Teruko Mitamura,Alexander G. Hauptmann |
発行日 | 2024-07-04 12:25:21+00:00 |
arxivサイト | arxiv_id(pdf) |