要約
ドローンベースのRGBTオブジェクト検出は、多くの24時間アプリケーションで重要な役割を果たします。
ただし、現実世界のドローンで視聴されたRGBTデータは、顕著な位置シフトの問題に苦しんでいます。つまり、小さなオブジェクトの位置は、異なるモダリティで大きく異なります。
たとえば、熱モダリティにおける小さなオブジェクトのわずかな偏差は、RGBモダリティで本体からドリフトするようになります。
通常、RGBTデータは1つのモダリティ(参照)にラベル付けされていることを考慮して、これにより、ラベルのないモダリティ(SENSED)が正確な監督シグナルを欠いており、検出器が適切な表現を学習できないようにします。
さらに、モダリティ間の対応する特徴点の不一致により、融合した特徴が検出ヘッドを混乱させます。
このホワイトペーパーでは、クロスモダリティボックスシフトの問題をラベルノイズの問題としてキャストし、新しい平均的な教師ベースのクロスモダリティボックス補正ヘッドアンサンブル(CBC)を介してその場でそれを扱うことを提案します。
このようにして、ネットワークは両方のモダリティのより多くの有益な表現を学ぶことができます。
さらに、RGBT Fusionの特徴マップの不一致の問題を軽減するために、シフトされたウィンドウベースのカスケードアライメント(SWCA)モジュールを考案します。
SWCA鉱山は、シフトされたウィンドウとカスケード内の空間的に整列されていない機能の間の長距離依存関係に、感知された機能を参照機能に合わせます。
2つのドローンベースのRGBTオブジェクト検出データセットでの広範な実験は、補正結果が視覚的および定量的に好ましいことを示しており、それにより検出性能が向上することを示しています。
特に、CBCモジュールは、感知されたモダリティグラウンドトゥルースの精度を25.52 ASIMポイント増加させます。
全体として、提案された検出器は、RGBTDRONEPERSONで43.55ポイントのMAP_50を達成し、DroneVehicleデータセットのシフトサブセットで8.6 MAP50によって最先端の方法を上回ります。
コードとデータは公開されます。
要約(オリジナル)
Drone-based RGBT object detection plays a crucial role in many around-the-clock applications. However, real-world drone-viewed RGBT data suffers from the prominent position shift problem, i.e., the position of a tiny object differs greatly in different modalities. For instance, a slight deviation of a tiny object in the thermal modality will induce it to drift from the main body of itself in the RGB modality. Considering RGBT data are usually labeled on one modality (reference), this will cause the unlabeled modality (sensed) to lack accurate supervision signals and prevent the detector from learning a good representation. Moreover, the mismatch of the corresponding feature point between the modalities will make the fused features confusing for the detection head. In this paper, we propose to cast the cross-modality box shift issue as the label noise problem and address it on the fly via a novel Mean Teacher-based Cross-modality Box Correction head ensemble (CBC). In this way, the network can learn more informative representations for both modalities. Furthermore, to alleviate the feature map mismatch problem in RGBT fusion, we devise a Shifted Window-Based Cascaded Alignment (SWCA) module. SWCA mines long-range dependencies between the spatially unaligned features inside shifted windows and cascaded aligns the sensed features with the reference ones. Extensive experiments on two drone-based RGBT object detection datasets demonstrate that the correction results are both visually and quantitatively favorable, thereby improving the detection performance. In particular, our CBC module boosts the precision of the sensed modality ground truth by 25.52 aSim points. Overall, the proposed detector achieves an mAP_50 of 43.55 points on RGBTDronePerson and surpasses a state-of-the-art method by 8.6 mAP50 on a shift subset of DroneVehicle dataset. The code and data will be made publicly available.
arxiv情報
著者 | Yan Zhang,Wen Yang,Chang Xu,Qian Hu,Fang Xu,Gui-Song Xia |
発行日 | 2025-02-13 13:25:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google