要約
Vision-and-Language Navigation(VLN)は、エージェントが時間を並べて視覚的観察を、連続的な決定を下すための対応する指示に関連付けることができます。
ただし、特に視覚的に多様なシーンを扱ったり、シミュレートされた環境から現実世界の展開に移行したりする場合、一般化は依然として永続的な課題です。
この論文では、この問題を軽減するための地上レベルの視点ナビゲーション(GVNAV)アプローチを提案する、高さの視野を持つ人間中心の指示と四足ロボットの間の不一致に対処します。
この作業は、現実的なロボットの展開におけるさまざまな高さの視覚観察の高さにわたるVLNの一般化ギャップを強調する最初の試みを表しています。
私たちのアプローチは、重み付けされた歴史的観測を、指示に従うための濃縮された空間的文脈として活用し、異なる視点で同一の特徴に適切な重みを割り当てることにより、セル内の特徴衝突を効果的に管理します。
これにより、低い高さのロボットは、視覚的な障害物や知覚の不一致などの課題を克服できます。
さらに、HM3DおよびGibsonデータセットから接続グラフを追加のリソースとして転送し、空間前のプライアーを強化し、現実世界のシナリオのより包括的な表現を強化し、実際の環境でのウェイポイント予測子のパフォーマンスと一般化可能性の向上につながります。
広範な実験では、地上レベルの視点ナビゲーション(GVNAV)アプローチにより、シミュレートされた環境と、四足込んでいるロボットを使用した実際の展開の両方でパフォーマンスが大幅に向上することが示されています。
要約(オリジナル)
Vision-and-Language Navigation (VLN) empowers agents to associate time-sequenced visual observations with corresponding instructions to make sequential decisions. However, generalization remains a persistent challenge, particularly when dealing with visually diverse scenes or transitioning from simulated environments to real-world deployment. In this paper, we address the mismatch between human-centric instructions and quadruped robots with a low-height field of view, proposing a Ground-level Viewpoint Navigation (GVNav) approach to mitigate this issue. This work represents the first attempt to highlight the generalization gap in VLN across varying heights of visual observation in realistic robot deployments. Our approach leverages weighted historical observations as enriched spatiotemporal contexts for instruction following, effectively managing feature collisions within cells by assigning appropriate weights to identical features across different viewpoints. This enables low-height robots to overcome challenges such as visual obstructions and perceptual mismatches. Additionally, we transfer the connectivity graph from the HM3D and Gibson datasets as an extra resource to enhance spatial priors and a more comprehensive representation of real-world scenarios, leading to improved performance and generalizability of the waypoint predictor in real-world environments. Extensive experiments demonstrate that our Ground-level Viewpoint Navigation (GVnav) approach significantly improves performance in both simulated environments and real-world deployments with quadruped robots.
arxiv情報
著者 | Zerui Li,Gengze Zhou,Haodong Hong,Yanyan Shao,Wenqi Lyu,Yanyuan Qiao,Qi Wu |
発行日 | 2025-02-26 10:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google