SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約

継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3Dスペースをナビゲートしながら、エージェントが自然言語の指示を解釈する必要があります。
既存のVLN-CEフレームワークは、2段階のアプローチ、次の2段階のアプローチに依存しています。ウェイポイントを生成するウェイポイント予測子と、動きを実行するナビゲーターです。
ただし、現在のウェイポイント予測因子は空間的認識と闘っていますが、ナビゲーターは歴史的な推論とバックトラッキング機能を欠いており、適応性を制限しています。
拡張されたウェイポイント予測子をマルチモーダル大手言語モデル(MLLM)ベースのナビゲーターと統合するゼロショットVLN-CEフレームワークを提案します。
予測因子は、より強力なビジョンエンコーダー、マスクされたクロスアテンション融合、およびウェイポイント品質の向上のために占有認識の損失を採用しています。
ナビゲーターは、バックトラッキングを備えた歴史を意識した推論と適応パス計画を組み込み、堅牢性を向上させます。
R2R-CEおよびMP3Dベンチマークでの実験は、メソッドがゼロショット設定で最先端の(SOTA)パフォーマンスを達成し、完全に監視された方法と比較して競争結果を示していることを示しています。
TurtleBot 4の実際の検証は、その適応性をさらに強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.

arxiv情報

著者 Xiangyu Shi,Zerui Li,Wenqi Lyu,Jiatong Xia,Feras Dayoub,Yanyuan Qiao,Qi Wu
発行日 2025-03-13 05:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク