Narrate2Nav: Real-Time Visual Navigation with Implicit Language Reasoning in Human-Centric Environments

要約

大規模なビジョン言語モデル(VLM)は、推論能力を示しながら、文脈的なキュー、人間の意図、および社会的ダイナミクスを理解することにより、人間中心の環境でのモバイルロボットナビゲーションを強化する可能性を実証しています。
ただし、それらの計算の複雑さと連続数値データに対する感度が限られていることは、リアルタイムのパフォーマンスと正確なモーションコントロールを妨げます。
この目的のために、barlow双子の冗長性削減損失に基づいて、暗黙の自然言語の推論、社会的手がかり、およびモデルの潜在的な空間ではなく潜在的な空間での潜在的な空間での視覚エンコーダー有効な推論内の人間の意図に基づいて、斬新な自己監視学習フレームワークを活用する新しいリアルタイムビジョンアクションモデルであるNarrate2navを提案します。
このモデルは、展開中の短距離ポイントゴールナビゲーションのロボット観測から低レベルのモーションコマンドへのトレーニング中に、トレーニング中のシーンコンテキストのRGB入力、モーションコマンド、およびテキスト信号を組み合わせています。
オフラインの目に見えないデータセットと現実世界の両方の実験の両方で、さまざまな挑戦的なシナリオにわたるArlate2NAVの広範な評価は、次のベストベースラインでそれぞれ52.94%と41.67%の全体的な改善を示しています。
さらに、他の4つのベースラインに対するNarrate2Navの視覚エンコーダーの注意マップの定性的比較分析は、ナビゲーション批判的なシーン要素への注意の強化を示しており、人間中心のナビゲーションタスクにおけるその有効性を強調しています。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated potential in enhancing mobile robot navigation in human-centric environments by understanding contextual cues, human intentions, and social dynamics while exhibiting reasoning capabilities. However, their computational complexity and limited sensitivity to continuous numerical data impede real-time performance and precise motion control. To this end, we propose Narrate2Nav, a novel real-time vision-action model that leverages a novel self-supervised learning framework based on the Barlow Twins redundancy reduction loss to embed implicit natural language reasoning, social cues, and human intentions within a visual encoder-enabling reasoning in the model’s latent space rather than token space. The model combines RGB inputs, motion commands, and textual signals of scene context during training to bridge from robot observations to low-level motion commands for short-horizon point-goal navigation during deployment. Extensive evaluation of Narrate2Nav across various challenging scenarios in both offline unseen dataset and real-world experiments demonstrates an overall improvement of 52.94 percent and 41.67 percent, respectively, over the next best baseline. Additionally, qualitative comparative analysis of Narrate2Nav’s visual encoder attention map against four other baselines demonstrates enhanced attention to navigation-critical scene elements, underscoring its effectiveness in human-centric navigation tasks.

arxiv情報

著者 Amirreza Payandeh,Anuj Pokhrel,Daeun Song,Marcos Zampieri,Xuesu Xiao
発行日 2025-06-17 06:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク