要約
Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりを活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントをガイドすることを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、さまざまなレンダリングエンジン、多用途のツールチェーン、および空中VLNの大規模なベンチマークであるOpenFlyを提案します。
まず、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、環境シミュレーション用の多様なレンダリングエンジンと高度な技術を統合します。
特に、3D GSはリアルからシムのレンダリングをサポートし、環境のリアリズムをさらに強化します。
第二に、空中VLNデータ収集、合理化されたポイントクラウドの取得、シーンセマンティックセグメンテーション、飛行軌跡の作成、および命令生成用の高度に自動化されたツールチェーンを開発します。
第三に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
さらに、飛行中の重要な観測を強調するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
ベンチマークのために、広範な実験と分析が行われ、最近のいくつかのVLNメソッドを評価し、OpenFlyプラットフォームとエージェントの優位性を示します。
ツールチェーン、データセット、およびコードはオープンソースをかけます。
要約(オリジナル)
Vision-Language Navigation (VLN) aims to guide agents by leveraging language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising various rendering engines, a versatile toolchain, and a large-scale benchmark for aerial VLN. Firstly, we integrate diverse rendering engines and advanced techniques for environment simulation, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of our environments. Secondly, we develop a highly automated toolchain for aerial VLN data collection, streamlining point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Thirdly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. Moreover, we propose OpenFly-Agent, a keyframe-aware VLN model emphasizing key observations during flight. For benchmarking, extensive experiments and analyses are conducted, evaluating several recent VLN methods and showcasing the superiority of our OpenFly platform and agent. The toolchain, dataset, and codes will be open-sourced.
arxiv情報
著者 | Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li |
発行日 | 2025-05-21 12:40:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google