要約
連続環境(VLN-CE)でのビジョンと言語のナビゲーションでは、エージェントが自然言語の指示に基づいて未知の連続空間をナビゲートする必要があります。
個別の設定と比較して、VLN-CEは2つのコア認識の課題を提起します。
第一に、事前に定義された観察点がないことは、不均一な視覚的記憶につながり、グローバルな空間相関を弱めました。
第二に、3次元シーンでの累積再構成エラーは、構造ノイズを導入し、局所的な特徴の知覚を損ないます。
これらの課題に対処するために、このペーパーでは、多粒度の知覚と指導意識の推論を通じてナビゲーションパフォーマンスを向上させる反復的な時空ブースターであるSt-Boosterを提案します。
ST-Boosterは、階層的な時空エンコーディング(HSTE)、多粒度アライメント融合(MGAF)、およびValueGuided WayPoint生成(VGWG)の3つの重要なモジュールで構成されています。
HSTEは、トポロジグラフを使用して長期的なグローバルメモリをエンコードし、グリッドマップを介して短期のローカル詳細をキャプチャします。
MGAFは、これらのデュアルマップ表現を、ジオメトリ認識の知識融合を通じて指示に合わせます。
結果として生じる表現は、事前トレーニングタスクを通じて繰り返し洗練されています。
推論中、VGWGはガイド付き注意ヒートマップ(GAH)を生成して、環境インストラクションの関連性を明示的にモデル化し、ウェイポイント選択を最適化します。
広範な比較実験とパフォーマンス分析が実施され、ST-Boosterは、特に複雑で妨害を受けやすい環境で、既存の最先端の方法を上回ることを示しています。
要約(オリジナル)
Vision-and-Language Navigation in Continuous Environments (VLN-CE) requires agents to navigate unknown, continuous spaces based on natural language instructions. Compared to discrete settings, VLN-CE poses two core perception challenges. First, the absence of predefined observation points leads to heterogeneous visual memories and weakened global spatial correlations. Second, cumulative reconstruction errors in three-dimensional scenes introduce structural noise, impairing local feature perception. To address these challenges, this paper proposes ST-Booster, an iterative spatiotemporal booster that enhances navigation performance through multi-granularity perception and instruction-aware reasoning. ST-Booster consists of three key modules — Hierarchical SpatioTemporal Encoding (HSTE), Multi-Granularity Aligned Fusion (MGAF), and ValueGuided Waypoint Generation (VGWG). HSTE encodes long-term global memory using topological graphs and captures shortterm local details via grid maps. MGAF aligns these dualmap representations with instructions through geometry-aware knowledge fusion. The resulting representations are iteratively refined through pretraining tasks. During reasoning, VGWG generates Guided Attention Heatmaps (GAHs) to explicitly model environment-instruction relevance and optimize waypoint selection. Extensive comparative experiments and performance analyses are conducted, demonstrating that ST-Booster outperforms existing state-of-the-art methods, particularly in complex, disturbance-prone environments.
arxiv情報
著者 | Lu Yue,Dongliang Zhou,Liang Xie,Erwei Yin,Feitian Zhang |
発行日 | 2025-04-14 03:29:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google