UAV-VLN: End-to-End Vision Language guided Navigation for UAVs

要約

AIガイド付きの自律性の中心的な課題は、エージェントが自然言語コマンドに基づいて以前に見えなかった環境で現実的かつ効果的にナビゲートできるようにすることです。
UAV-VLNは、無人航空機(UAV)の新規エンドツーエンドビジョンナビゲーション(VLN)フレームワーク(UAV)を提案します。
私たちのシステムは、自由形式の自然言語の指示を解釈し、それらを視覚的な観察に接地し、さまざまな環境で実行可能な空中軌道を計画します。
UAV-VLNは、LLMSの常識的な推論機能を活用して高レベルのセマンティック目標を解析し、ビジョンモデルは環境内の意味的に関連するオブジェクトを検出およびローカライズします。
これらのモダリティを融合させることにより、UAVは空間的関係について推論し、人間の指示での参照を明確にし、タスク固有の監督を最小限に抑えてコンテキスト認識行動を計画できます。
堅牢で解釈可能な意思決定を確保するために、フレームワークには、言語的意図を視覚的コンテキストに合わせたクロスモーダル接地メカニズムが含まれています。
多様な屋内および屋外ナビゲーションシナリオを越えてUAV-VLNを評価し、タスク固有のトレーニングを最小限に抑えて、新しい指示や環境に一般化する能力を示しています。
我々の結果は、命令に従う精度と軌道効率の大幅な改善を示しており、安全で直感的で一般化可能なUAV自律性のためのLLM主導の視覚言語インターフェイスの可能性を強調しています。

要約(オリジナル)

A core challenge in AI-guided autonomy is enabling agents to navigate realistically and effectively in previously unseen environments based on natural language commands. We propose UAV-VLN, a novel end-to-end Vision-Language Navigation (VLN) framework for Unmanned Aerial Vehicles (UAVs) that seamlessly integrates Large Language Models (LLMs) with visual perception to facilitate human-interactive navigation. Our system interprets free-form natural language instructions, grounds them into visual observations, and plans feasible aerial trajectories in diverse environments. UAV-VLN leverages the common-sense reasoning capabilities of LLMs to parse high-level semantic goals, while a vision model detects and localizes semantically relevant objects in the environment. By fusing these modalities, the UAV can reason about spatial relationships, disambiguate references in human instructions, and plan context-aware behaviors with minimal task-specific supervision. To ensure robust and interpretable decision-making, the framework includes a cross-modal grounding mechanism that aligns linguistic intent with visual context. We evaluate UAV-VLN across diverse indoor and outdoor navigation scenarios, demonstrating its ability to generalize to novel instructions and environments with minimal task-specific training. Our results show significant improvements in instruction-following accuracy and trajectory efficiency, highlighting the potential of LLM-driven vision-language interfaces for safe, intuitive, and generalizable UAV autonomy.

arxiv情報

著者 Pranav Saxena,Nishant Raghuvanshi,Neena Goveas
発行日 2025-04-30 08:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク