要約
超小型飛行機 (MAV) の視覚検出は、さまざまなタスクでの重要な用途のため、近年ますます注目を集めています。
MAV 検出の既存の方法は、トレーニング セットとテスト セットが同じ分布を持つことを前提としています。
その結果、新しいドメインにデプロイされた場合、ドメインの不一致により検出器のパフォーマンスが大幅に低下する可能性があります。
この論文では、クロスドメイン MAV 検出の問題について研究します。
この論文の貢献は 3 つあります。
1) シミュレーションと現実的な画像の両方から構成されるマルチ MAV マルチドメイン (M3D) データセットを提案します。
他の既存のデータセットと比較して、提案されたデータセットは、豊富なシーン、多様な MAV タイプ、さまざまな視野角をカバーするという意味でより包括的です。
提案されたデータセットに基づいて、クロスドメイン MAV 検出の新しいベンチマークが提案されます。
2) 擬似ラベル付けと大規模から小規模のトレーニング手順のフレームワークに基づいたノイズ抑制ネットワーク (NSN) を提案します。
困難な擬似ラベル ノイズを軽減するために、このネットワークでは 2 つの新しいモジュールが設計されています。
1 つ目は、さまざまな難易度の擬似ラベルに適応しきい値を割り当てる事前ベースのカリキュラム学習モジュールです。
2 つ目は、真にラベル付けされた MAV をラベル付けされていないターゲット イメージに貼り付けるためのマスクされたコピー&ペースト拡張モジュールで、これにより擬似ラベル ノイズが減少します。
3) 広範な実験結果により、最先端の方法と比較して、提案された方法の優れたパフォーマンスが検証されています。
特に、シミュレーションから現実への適応、クロスシーン適応、およびクロスシーン適応のタスクで 46.9%(+5.8%)、50.5%(+3.7%)、および 61.5%(+11.3%) の mAP を達成します。
それぞれカメラの適応。
要約(オリジナル)
Visual detection of Micro Air Vehicles (MAVs) has attracted increasing attention in recent years due to its important application in various tasks. The existing methods for MAV detection assume that the training set and testing set have the same distribution. As a result, when deployed in new domains, the detectors would have a significant performance degradation due to domain discrepancy. In this paper, we study the problem of cross-domain MAV detection. The contributions of this paper are threefold. 1) We propose a Multi-MAV-Multi-Domain (M3D) dataset consisting of both simulation and realistic images. Compared to other existing datasets, the proposed one is more comprehensive in the sense that it covers rich scenes, diverse MAV types, and various viewing angles. A new benchmark for cross-domain MAV detection is proposed based on the proposed dataset. 2) We propose a Noise Suppression Network (NSN) based on the framework of pseudo-labeling and a large-to-small training procedure. To reduce the challenging pseudo-label noises, two novel modules are designed in this network. The first is a prior-based curriculum learning module for allocating adaptive thresholds for pseudo labels with different difficulties. The second is a masked copy-paste augmentation module for pasting truly-labeled MAVs on unlabeled target images and thus decreasing pseudo-label noises. 3) Extensive experimental results verify the superior performance of the proposed method compared to the state-of-the-art ones. In particular, it achieves mAP of 46.9%(+5.8%), 50.5%(+3.7%), and 61.5%(+11.3%) on the tasks of simulation-to-real adaptation, cross-scene adaptation, and cross-camera adaptation, respectively.
arxiv情報
著者 | Yin Zhang,Jinhong Deng,Peidong Liu,Wen Li,Shiyu Zhao |
発行日 | 2024-03-25 12:07:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google