VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning

要約

未知の環境でのビジョン言語ナビゲーションは、モバイルロボットにとって重要です。
家庭の支援や救助などのシナリオでは、モバイルロボットは「黒を着ている人を見つける」などの人間の指揮を理解する必要があります。
低電力ロボットに効率的な空間推論を統合する新しいVision-Language Navigation(VL-NAV)システムを提示します。
単一の画像レベルの特徴に依存してロボットを導く以前の方法とは異なり、この方法は、ピクセルごとのビジョン言語機能と好奇心駆動型の探索を統合します。
このアプローチにより、多様な環境にわたる人間にインストールされたインスタンスへの堅牢なナビゲーションが可能になります。
4輪モバイルロボットにVL-NAVを展開し、さまざまなスケールとセマンティックな複雑さにまたがる屋内および屋外の両方の環境で包括的なナビゲーションタスクを通じてパフォーマンスを評価します。
驚くべきことに、VL-NAVは、Jetson Orin NXを使用して30 Hzのリアルタイム周波数で動作し、効率的なビジョン言語ナビゲーションを実施する能力を強調しています。
結果は、VL-NAVが86.3%の全体的な成功率を達成し、以前の方法を44.15%上回ることを示しています。

要約(オリジナル)

Vision-language navigation in unknown environments is crucial for mobile robots. In scenarios such as household assistance and rescue, mobile robots need to understand a human command, such as ‘find a person wearing black’. We present a novel vision-language navigation (VL-Nav) system that integrates efficient spatial reasoning on low-power robots. Unlike prior methods that rely on a single image-level feature similarity to guide a robot, our method integrates pixel-wise vision-language features with curiosity-driven exploration. This approach enables robust navigation to human-instructed instances across diverse environments. We deploy VL-Nav on a four-wheel mobile robot and evaluate its performance through comprehensive navigation tasks in both indoor and outdoor environments, spanning different scales and semantic complexities. Remarkably, VL-Nav operates at a real-time frequency of 30 Hz with a Jetson Orin NX, highlighting its ability to conduct efficient vision-language navigation. Results show that VL-Nav achieves an overall success rate of 86.3%, outperforming previous methods by 44.15%.

arxiv情報

著者 Yi Du,Taimeng Fu,Zhuoqun Chen,Bowen Li,Shaoshu Su,Zhipeng Zhao,Chen Wang
発行日 2025-02-10 06:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク