AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models

要約

航空宇宙に組み込まれたインテリジェンスは、無人航空機 (UAV) やその他の航空宇宙プラットフォームを強化して、自律的な知覚、認知、行動、および人間や環境との自己中心的なアクティブな相互作用を実現することを目的としています。
航空宇宙に組み込まれた世界モデルは、UAV の自律インテリジェンスを実現する効果的な手段として機能し、航空宇宙に組み込まれたインテリジェンスに向けた必要な道筋を表します。
ただし、既存の具体化された世界モデルは主に屋内シナリオにおける地上レベルのインテリジェント エージェントに焦点を当てており、UAV インテリジェント エージェントに関する研究は未開発のままです。
このギャップに対処するために、都市ドローンを一人称視点で特集した、初の大規模な実世界の画像テキスト事前トレーニング データセット AerialAgent-Ego10k を構築しました。
また、航空宇宙に具体化された世界モデルの事前トレーニングを容易にするために、仮想画像とテキストとポーズの位置合わせデータセットである Cyber​​Agent Ego500k も作成します。
初めて、5 つの下流タスク (航空宇宙を具体化したシーン認識、空間推論、ナビゲーション探査、タスク計画、動作決定) を明確に定義し、対応する命令データセット (SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-) を構築します。
Nav3k と SkyAgent-Plan3k、および SkyAgent-Act3k。航空宇宙の具体化ワールド モデルを微調整します。
同時に、結果を包括的、柔軟、かつ客観的に評価するために、GPT-4 に基づく下流タスク評価指標である SkyAgentEval を開発し、UAV エージェント タスクにおける 2D/3D 視覚言語モデルの可能性と限界を明らかにします。
さらに、10 を超える 2D/3D 視覚言語モデル、2 つの事前トレーニング データセット、5 つの微調整データセット、10 を超える評価指標、およびシミュレーターをベンチマーク スイート (AeroVerse) に統合し、コミュニティにリリースされます。
航空宇宙に組み込まれたインテリジェンスの探求と開発を促進する。

要約(オリジナル)

Aerospace embodied intelligence aims to empower unmanned aerial vehicles (UAVs) and other aerospace platforms to achieve autonomous perception, cognition, and action, as well as egocentric active interaction with humans and the environment. The aerospace embodied world model serves as an effective means to realize the autonomous intelligence of UAVs and represents a necessary pathway toward aerospace embodied intelligence. However, existing embodied world models primarily focus on ground-level intelligent agents in indoor scenarios, while research on UAV intelligent agents remains unexplored. To address this gap, we construct the first large-scale real-world image-text pre-training dataset, AerialAgent-Ego10k, featuring urban drones from a first-person perspective. We also create a virtual image-text-pose alignment dataset, CyberAgent Ego500k, to facilitate the pre-training of the aerospace embodied world model. For the first time, we clearly define 5 downstream tasks, i.e., aerospace embodied scene awareness, spatial reasoning, navigational exploration, task planning, and motion decision, and construct corresponding instruction datasets, i.e., SkyAgent-Scene3k, SkyAgent-Reason3k, SkyAgent-Nav3k and SkyAgent-Plan3k, and SkyAgent-Act3k, for fine-tuning the aerospace embodiment world model. Simultaneously, we develop SkyAgentEval, the downstream task evaluation metrics based on GPT-4, to comprehensively, flexibly, and objectively assess the results, revealing the potential and limitations of 2D/3D visual language models in UAV-agent tasks. Furthermore, we integrate over 10 2D/3D visual-language models, 2 pre-training datasets, 5 finetuning datasets, more than 10 evaluation metrics, and a simulator into the benchmark suite, i.e., AeroVerse, which will be released to the community to promote exploration and development of aerospace embodied intelligence.

arxiv情報

著者 Fanglong Yao,Yuanchang Yue,Youzhi Liu,Xian Sun,Kun Fu
発行日 2024-08-28 03:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク