要約
視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。
要約(オリジナル)
Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.
arxiv情報
著者 | Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu |
発行日 | 2024-10-10 05:02:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google