HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard

要約

Vision and-Language Navigation(VLN)システムは、多くの場合、個別(パノラマ)または連続(フリーモーション)パラダイムのいずれかに焦点を当て、人間が人口の多い動的環境の複雑さを見落とします。
明示的な社会的認識の制約の下でこれらのパラダイムを統合する統一された人間に認識されたVLN(HA-VLN)ベンチマークを導入します。
私たちの貢献には、次のものが含まれます。1。個別の連続したナビゲーションと個人空間要件のバランスをとる標準化されたタスク定義。
2.現実的な多人間の相互作用、屋外コンテキスト、および洗練されたモーション言語アライメントをキャプチャする強化された人間の動きデータセット(HAPS 2.0)およびアップグレードされたシミュレーター。
3. 16,844人の人間中心の命令に関する広範なベンチマーク。マルチヒューマンのダイナミクスと部分的な観測可能性が、主要なVLNエージェントにとって大きな課題をどのように引き起こすかを明らかにします。
4.混雑した屋内スペースでのSIMからリアルへの転送を検証する現実世界のロボットテスト。
5。離散タスクと連続タスク全体で透明な比較をサポートするパブリックリーダーボード。
経験的な結果は、ナビゲーションの成功の改善と、社会的文脈が統合されたときの衝突の減少を示しており、人間中心の設計の必要性を強調しています。
すべてのデータセット、シミュレータ、エージェントコード、および評価ツールをリリースすることにより、より安全で、より能力があり、社会的に責任のあるVLN研究を促進することを目指しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) systems often focus on either discrete (panoramic) or continuous (free-motion) paradigms alone, overlooking the complexities of human-populated, dynamic environments. We introduce a unified Human-Aware VLN (HA-VLN) benchmark that merges these paradigms under explicit social-awareness constraints. Our contributions include: 1. A standardized task definition that balances discrete-continuous navigation with personal-space requirements; 2. An enhanced human motion dataset (HAPS 2.0) and upgraded simulators capturing realistic multi-human interactions, outdoor contexts, and refined motion-language alignment; 3. Extensive benchmarking on 16,844 human-centric instructions, revealing how multi-human dynamics and partial observability pose substantial challenges for leading VLN agents; 4. Real-world robot tests validating sim-to-real transfer in crowded indoor spaces; and 5. A public leaderboard supporting transparent comparisons across discrete and continuous tasks. Empirical results show improved navigation success and fewer collisions when social context is integrated, underscoring the need for human-centric design. By releasing all datasets, simulators, agent code, and evaluation tools, we aim to advance safer, more capable, and socially responsible VLN research.

arxiv情報

著者 Yifei Dong,Fengyi Wu,Qi He,Heng Li,Minghan Li,Zebang Cheng,Yuxuan Zhou,Jingdong Sun,Qi Dai,Zhi-Qi Cheng,Alexander G Hauptmann
発行日 2025-03-18 13:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク