要約
Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりの両方を活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントを環境に導くことを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、汎用性の高いツールチェーンと空中VLNの大規模なベンチマークを含むプラットフォームであるOpenFlyを提案します。
まず、データ収集用の高度に自動化されたツールチェーンを開発し、自動ポイントクラウドの取得、シーンセマンティックセグメンテーション、フライト軌道の作成、および命令生成を可能にします。
第二に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
対応する視覚データは、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、さまざまなレンダリングエンジンと高度な技術を使用して生成されます。
すべてのデータは高い視覚品質を示しています。
特に、3D GSは実際のレンダリングをサポートし、データセットのリアリズムをさらに強化します。
第三に、言語命令、現在の観測、および履歴キーフレームを入力として採用し、飛行アクションを直接出力するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
広範な分析と実験が行われ、OpenFlyプラットフォームとOpenFly-Agentの優位性を示しています。
ツールチェーン、データセット、およびコードはオープンソースをかけます。
要約(オリジナル)
Vision-Language Navigation (VLN) aims to guide agents through an environment by leveraging both language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising a versatile toolchain and large-scale benchmark for aerial VLN. Firstly, we develop a highly automated toolchain for data collection, enabling automatic point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Secondly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. The corresponding visual data are generated using various rendering engines and advanced techniques, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). All data exhibit high visual quality. Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of the dataset. Thirdly, we propose OpenFly-Agent, a keyframe-aware VLN model, which takes language instructions, current observations, and historical keyframes as input, and outputs flight actions directly. Extensive analyses and experiments are conducted, showcasing the superiority of our OpenFly platform and OpenFly-Agent. The toolchain, dataset, and codes will be open-sourced.
arxiv情報
著者 | Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li |
発行日 | 2025-02-25 09:57:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google