要約
大幅な進歩にもかかわらず、自律駆動システムは、単一視点センシングの固有の制限により、閉塞されたオブジェクトと長距離検出に苦労し続けています。
空中協力は、UAVの航空ビューを地上車両のローカル観測と統合することにより、有望なソリューションを提供します。
ただし、この新興分野の進捗は、パブリックデータセットと標準化された評価ベンチマークがないことにより妨げられています。
To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation
現実的なUAVダイナミクスのため。
(2)通信効率、潜在耐性、高度適応性を評価するためのプロトコルを含む、航空地面の協調的検出および追跡タスクのための統一されたベンチマークフレームワーク。
(3)アジャイルは、クエリベースの相互作用を通じてクロスビューの特徴を動的に整列させ、通信オーバーヘッドと知覚精度の有利なバランスを達成するインスタンスレベルの中間融合ベースラインです。
広範な実験は、航空機の協同組合の認識の有効性を証明し、さらなる研究の方向を実証します。
データセットとコードは、https://github.com/wang-jh18-svm/griffinで入手できます。
要約(オリジナル)
Despite significant advancements, autonomous driving systems continue to struggle with occluded objects and long-range detection due to the inherent limitations of single-perspective sensing. Aerial-ground cooperation offers a promising solution by integrating UAVs’ aerial views with ground vehicles’ local observations. However, progress in this emerging field has been hindered by the absence of public datasets and standardized evaluation benchmarks. To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation for realistic UAV dynamics; (2) A unified benchmarking framework for aerial-ground cooperative detection and tracking tasks, including protocols for evaluating communication efficiency, latency tolerance, and altitude adaptability; (3) AGILE, an instance-level intermediate fusion baseline that dynamically aligns cross-view features through query-based interaction, achieving an advantageous balance between communication overhead and perception accuracy. Extensive experiments prove the effectiveness of aerial-ground cooperative perception and demonstrate the direction of further research. The dataset and codes are available at https://github.com/wang-jh18-SVM/Griffin.
arxiv情報
著者 | Jiahao Wang,Xiangyu Cao,Jiaru Zhong,Yuner Zhang,Haibao Yu,Lei He,Shaobing Xu |
発行日 | 2025-03-10 07:00:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google