Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding

要約

Vision-and-Language Navigation(VLN)は、自律的なロボット工学における長年の課題であり、複雑な環境をナビゲートしながら人間の指示に従う能力をエージェントに支援することを目指しています。
この分野には2つの重要なボトルネックが残っています。分散環境への一般化と、固定された離散アクションスペースへの依存です。
これらの課題に対処するために、言語誘導飛行を実行するために無人航空機(UAV)に合わせたフレームワークであるVision-Language Fly(VLFLY)を提案します。
ローカリゼーションまたはアクティブなレンジのセンサーの要件がなければ、VLFLYは、オンボードモノクラーカメラによってキャプチャされたエゴセントリック観測から純粋に連続速度コマンドを出力します。
VLFLYは、3つのモジュールを統合します。高レベルの言語を再フォーマルする大規模な言語モデル(LLM)に基づく命令エンコーダ、構造化プロンプト、ビジョン言語モデル(VLM)が視覚言語の類似性を介してゴールイメージに合わせた目標リトリーバー、および実行可能なトレー物観を生成するウェイポイントプランナーを統合します。
VLFLYは、追加の微調整なしに多様なシミュレーション環境で評価され、すべてのベースラインを常にアウトパフォームします。
さらに、直接的および間接的な指示の下での屋内および屋外環境での実際のVLNタスクは、VLFLYが抽象的な言語入力が存在する場合でも、堅牢なオープンボキャブラリー目標の理解と一般化ナビゲーション機能を達成することを示しています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a long-standing challenge in autonomous robotics, aiming to empower agents with the ability to follow human instructions while navigating complex environments. Two key bottlenecks remain in this field: generalization to out-of-distribution environments and reliance on fixed discrete action spaces. To address these challenges, we propose Vision-Language Fly (VLFly), a framework tailored for Unmanned Aerial Vehicles (UAVs) to execute language-guided flight. Without the requirement for localization or active ranging sensors, VLFly outputs continuous velocity commands purely from egocentric observations captured by an onboard monocular camera. The VLFly integrates three modules: an instruction encoder based on a large language model (LLM) that reformulates high-level language into structured prompts, a goal retriever powered by a vision-language model (VLM) that matches these prompts to goal images via vision-language similarity, and a waypoint planner that generates executable trajectories for real-time UAV control. VLFly is evaluated across diverse simulation environments without additional fine-tuning and consistently outperforms all baselines. Moreover, real-world VLN tasks in indoor and outdoor environments under direct and indirect instructions demonstrate that VLFly achieves robust open-vocabulary goal understanding and generalized navigation capabilities, even in the presence of abstract language input.

arxiv情報

著者 Yuhang Zhang,Haosheng Yu,Jiaping Xiao,Mir Feroskhan
発行日 2025-06-12 14:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク