DyNaVLM: Zero-Shot Vision-Language Navigation System with Dynamic Viewpoints and Self-Refining Graph Memory

要約

Vision-Language Models(VLM)を使用して、エンドツーエンドのビジョン言語ナビゲーションフレームワークであるDynavlmを紹介します。
固定角度または距離間隔によって制約されている以前の方法とは対照的に、システムはエージェントが視覚言語の推論を介してナビゲーションターゲットを自由に選択できるようにします。
その中心には、1)オブジェクトの場所を実行可能なトポロジ関係として保存する自己強化グラフメモリがあり、2)分散グラフの更新を介してクロスロボットメモリ共有を可能にし、3)検索の増強を介してVLMの意思決定を強化します。
タスク固有のトレーニングや微調整なしで動作するDynavlmは、ヤギとObjectNavのベンチマークで高性能を示します。
実際のテストは、その堅牢性と一般化をさらに検証します。
システムの3つの革新:動的アクションスペースの定式化、共同グラフメモリ、およびトレーニングフリーの展開は、スケーラブルな具体化されたロボットの新しいパラダイムを確立し、離散VLNタスクと連続的な現実世界のナビゲーションの間のギャップを埋めます。

要約(オリジナル)

We present DyNaVLM, an end-to-end vision-language navigation framework using Vision-Language Models (VLM). In contrast to prior methods constrained by fixed angular or distance intervals, our system empowers agents to freely select navigation targets via visual-language reasoning. At its core lies a self-refining graph memory that 1) stores object locations as executable topological relations, 2) enables cross-robot memory sharing through distributed graph updates, and 3) enhances VLM’s decision-making via retrieval augmentation. Operating without task-specific training or fine-tuning, DyNaVLM demonstrates high performance on GOAT and ObjectNav benchmarks. Real-world tests further validate its robustness and generalization. The system’s three innovations: dynamic action space formulation, collaborative graph memory, and training-free deployment, establish a new paradigm for scalable embodied robot, bridging the gap between discrete VLN tasks and continuous real-world navigation.

arxiv情報

著者 Zihe Ji,Huangxuan Lin,Yue Gao
発行日 2025-06-18 03:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク