SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery

要約

この論文では、マルチモーダルデータを融合し、支援された超解像(SR)学習を利用し、
検出精度と計算コスト。
まず、Focus モジュールを削除して HR 機能を維持し、小さなオブジェクトの欠落エラーを大幅に克服することで、コンパクトなベースラインを構築します。
次に、ピクセル レベルのマルチモーダル フュージョン (MF) を利用してさまざまなデータから情報を抽出し、RSI の小さなオブジェクトにより適した効果的な機能を促進します。
さらに、シンプルで柔軟な SR ブランチを設計して、低解像度 (LR) 入力で広大な背景から小さなオブジェクトを区別できる HR 特徴表現を学習し、検出精度をさらに向上させます。
さらに、追加の計算の導入を避けるために、SR ブランチは推論段階で破棄され、LR 入力によりネットワーク モデルの計算が削減されます。
実験結果は、広く使用されている VEDAI RS データセットで、SuperYOLO が 73.61% (mAP50 に関して) の精度を達成することを示しています。これは、YOLOv5l、YOLOv5x、RS 設計の YOLOrs などの SOTA 大規模モデルよりも 10% 以上高いです。
一方、SuperYOLO の GFOLP とパラメーター サイズは、YOLOv5x の約 18.1 倍と 4.2 倍小さいです。
私たちが提案したモデルは、最先端のモデルと比較して、精度と速度のトレードオフが良好であることを示しています。
コードは、https://github.com/icey-zhang/SuperYOLO でオープン ソース化されます。

要約(オリジナル)

In this paper, we propose an accurate yet fast small object detection method for RSI, named SuperYOLO, which fuses multimodal data and performs high resolution (HR) object detection on multiscale objects by utilizing the assisted super resolution (SR) learning and considering both the detection accuracy and computation cost. First, we construct a compact baseline by removing the Focus module to keep the HR features and significantly overcomes the missing error of small objects. Second, we utilize pixel-level multimodal fusion (MF) to extract information from various data to facilitate more suitable and effective features for small objects in RSI. Furthermore, we design a simple and flexible SR branch to learn HR feature representations that can discriminate small objects from vast backgrounds with low-resolution (LR) input, thus further improving the detection accuracy. Moreover, to avoid introducing additional computation, the SR branch is discarded in the inference stage and the computation of the network model is reduced due to the LR input. Experimental results show that, on the widely used VEDAI RS dataset, SuperYOLO achieves an accuracy of 73.61% (in terms of mAP50), which is more than 10% higher than the SOTA large models such as YOLOv5l, YOLOv5x and RS designed YOLOrs. Meanwhile, the GFOLPs and parameter size of SuperYOLO are about 18.1x and 4.2x less than YOLOv5x. Our proposed model shows a favorable accuracy-speed trade-off compared to the state-of-art models. The code will be open sourced at https://github.com/icey-zhang/SuperYOLO.

arxiv情報

著者 Jiaqing Zhang,Jie Lei,Weiying Xie,Zhenman Fang,Yunsong Li,Qian Du
発行日 2022-09-27 12:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク