Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?


UAV が商業的に豊富にあるにもかかわらず、航空データの取得は依然として困難であり、既存のアジアと北米を中心としたオープンソースの UAV データセットは小規模または低解像度であり、シーンのコンテキストに多様性がありません。
これら 2 つの要素が連携して、オープンワールドの基礎モデルを含む、主に地上ビュー データでトレーニングされたディープ ニューラル ネットワーク (DNN) モデルの空中視覚認識が最適化されていません。
航空探知の変革時代への道を開くために、地上カメラとドローン搭載カメラなど、さまざまな視点から同期したシーンを記録するビデオ データセットである Multiview Aerial Visual RECognition (MAVREC) を紹介します。
MAVREC は、業界標準の 2.7K 解像度の約 2.5 時間のビデオ シーケンス、50 万以上のフレーム、および 110 万個の注釈付き境界ボックスで構成されています。
これにより、MAVREC は最大の地上および空撮データセットとなり、すべてのモダリティおよびタスクにわたるすべてのドローンベースのデータセットの中で 4 番目に大きくなります。
MAVREC に関する広範なベンチマークを通じて、対応する地理的位置からの地上ビュー画像を使用して物体検出器を強化することが、航空検出の優れた事前トレーニング戦略であることを認識しています。
この戦略に基づいて、私たちは、ラベル付き (地上および航空) 画像とラベルなし (航空のみ) 画像を活用して航空検出を強化するカリキュラムベースの半教師あり物体検出アプローチで MAVREC のベンチマークを行います。
MAVREC データセットを一般公開します:。


Despite the commercial abundance of UAVs, aerial data acquisition remains challenging, and the existing Asia and North America-centric open-source UAV datasets are small-scale or low-resolution and lack diversity in scene contextuality. Additionally, the color content of the scenes, solar-zenith angle, and population density of different geographies influence the data diversity. These two factors conjointly render suboptimal aerial-visual perception of the deep neural network (DNN) models trained primarily on the ground-view data, including the open-world foundational models. To pave the way for a transformative era of aerial detection, we present Multiview Aerial Visual RECognition or MAVREC, a video dataset where we record synchronized scenes from different perspectives — ground camera and drone-mounted camera. MAVREC consists of around 2.5 hours of industry-standard 2.7K resolution video sequences, more than 0.5 million frames, and 1.1 million annotated bounding boxes. This makes MAVREC the largest ground and aerial-view dataset, and the fourth largest among all drone-based datasets across all modalities and tasks. Through our extensive benchmarking on MAVREC, we recognize that augmenting object detectors with ground-view images from the corresponding geographical location is a superior pre-training strategy for aerial detection. Building on this strategy, we benchmark MAVREC with a curriculum-based semi-supervised object detection approach that leverages labeled (ground and aerial) and unlabeled (only aerial) images to enhance the aerial detection. We publicly release the MAVREC dataset:


著者 Aritra Dutta,Srijan Das,Jacob Nielsen,Rajatsubhra Chakraborty,Mubarak Shah
発行日 2023-12-07 18:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク