PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

要約

多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意思決定の両方が必要です。
PhysNav-DGは、古典的なセンサーの融合をビジョン言語モデルのセマンティックパワーと統合する新しいフレームワークです。
デュアルブランチアーキテクチャは、マルチセンサー入力からのナビゲーションアクションを予測し、同時に詳細な考え方の説明を生成します。
修正された適応型カルマンフィルターは、環境コンテキストに基づいてノイズパラメーターを動的に調整します。
Llama 3.2 11bやBlip-2などのモデルからのセマンティックな洞察とともに、生センサーデータのいくつかのストリームを活用します。
アプローチを評価するために、屋内ナビゲーション、自律運転、および地上の真実のアクションと人間の検証の説明を備えた社会的ナビゲーションタスクを統一する新しいマルチドメインデータセットであるMD-Nexベンチマークを紹介します。
広範な実験とアブレーションは、PhysNAV-DGがナビゲーションの成功率を20%以上改善し、高効率を達成することを示しており、説明は非常に根拠があり、明確な説明があります。
この作業は、より安全で信頼できる自律システムのために、高レベルのセマンティック推論と幾何学的計画をつなぎます。

要約(オリジナル)

Robust navigation in diverse environments and domains requires both accurate state estimation and transparent decision making. We present PhysNav-DG, a novel framework that integrates classical sensor fusion with the semantic power of vision-language models. Our dual-branch architecture predicts navigation actions from multi-sensor inputs while simultaneously generating detailed chain-of-thought explanations. A modified Adaptive Kalman Filter dynamically adjusts its noise parameters based on environmental context. It leverages several streams of raw sensor data along with semantic insights from models such as LLaMA 3.2 11B and BLIP-2. To evaluate our approach, we introduce the MD-NEX Benchmark, a novel multi-domain dataset that unifies indoor navigation, autonomous driving, and social navigation tasks with ground-truth actions and human-validated explanations. Extensive experiments and ablations show that PhysNav-DG improves navigation success rates by over 20% and achieves high efficiency, with explanations that are both highly grounded and clear. This work connects high-level semantic reasoning and geometric planning for safer and more trustworthy autonomous systems.

arxiv情報

著者 Trisanth Srinivasan,Santosh Patapati
発行日 2025-06-13 03:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO パーマリンク