要約
小さな物体の検出は、物体検出の分野において難しい問題でした。
いくつかのアテンション ブロックを追加したり、特徴融合ネットワークの構造全体を変更したりするなど、このタスクの改善を提案する研究がいくつかありました。
ただし、これらのモデルの計算コストは大きいため、リアルタイムの物体検出システムの導入は現実的ではなく、改善の余地が残されています。
この目的を達成するために、前述の問題に対処するために、改良された YOLOv5 モデル、HIC-YOLOv5 が提案されています。
まず、小さなオブジェクトに固有の追加の予測ヘッドが追加され、より優れた予測のための高解像度の特徴マップが提供されます。
第二に、バックボーンとネックの間にインボリューションブロックが採用され、特徴マップのチャネル情報が増加します。
さらに、CBAMと呼ばれるアテンションメカニズムがバックボーンの最後に適用されるため、以前の研究と比較して計算コストが削減されるだけでなく、チャネルと空間領域の両方で重要な情報が強調されます。
私たちの結果は、HIC-YOLOv5 が VisDrone-2019-DET データセットで mAP@[.5:.95] を 6.42%、mAP@0.5 を 9.38% 改善したことを示しています。
要約(オリジナル)
Small object detection has been a challenging problem in the field of object detection. There has been some works that proposes improvements for this task, such as adding several attention blocks or changing the whole structure of feature fusion networks. However, the computation cost of these models is large, which makes deploying a real-time object detection system unfeasible, while leaving room for improvement. To this end, an improved YOLOv5 model: HIC-YOLOv5 is proposed to address the aforementioned problems. Firstly, an additional prediction head specific to small objects is added to provide a higher-resolution feature map for better prediction. Secondly, an involution block is adopted between the backbone and neck to increase channel information of the feature map. Moreover, an attention mechanism named CBAM is applied at the end of the backbone, thus not only decreasing the computation cost compared with previous works but also emphasizing the important information in both channel and spatial domain. Our result shows that HIC-YOLOv5 has improved mAP@[.5:.95] by 6.42% and mAP@0.5 by 9.38% on VisDrone-2019-DET dataset.
arxiv情報
著者 | Shiyi Tang,Shu Zhang,Yini Fang |
発行日 | 2023-11-09 17:01:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google