mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation in RLD detection

要約

コンピューター ビジョンにおいて、さまざまなスケールでオブジェクトを検出することは依然として大きな課題であり、特にイネ葉病 (RLD) 検出など、オブジェクトがかなりのスケールの変化を示すタスクでは重要です。
従来の物体検出方法では、これらの変動に対処するのが困難なことが多く、検出漏れや精度の低下が生じます。
この研究では、拡張畳み込みを特徴ピラミッド ネットワーク (FPN) に統合してマルチスケールの情報抽出を強化する新しいアプローチである、マルチスケール アテンション ピラミッド モジュール (mAPm) を提案します。
さらに、グローバル マルチヘッド セルフ アテンション (MHSA) メカニズムとデコンボリューション レイヤーを組み込んで、アップサンプリング プロセスを改良します。
MRLD および COCO データセットを使用して、YOLOv7 で mAPm を評価します。
バニラ FPN、BiFPN、NAS-FPN、PANET、および ACFPN と比較して、mAPm は平均精度 (AP) の大幅な向上を達成し、YOLOv7 のベースライン FPN メソッドと比較して MRLD データセットで +2.61% 増加しました。
これは、スケールの変動を処理する際の有効性を示しています。
さらに、mAPm の多用途性により、さまざまな FPN ベースの物体検出モデルへの統合が可能となり、物体検出技術を進歩させる可能性が示されています。

要約(オリジナル)

Detecting objects across various scales remains a significant challenge in computer vision, particularly in tasks such as Rice Leaf Disease (RLD) detection, where objects exhibit considerable scale variations. Traditional object detection methods often struggle to address these variations, resulting in missed detections or reduced accuracy. In this study, we propose the multi-scale Attention Pyramid module (mAPm), a novel approach that integrates dilated convolutions into the Feature Pyramid Network (FPN) to enhance multi-scale information ex-traction. Additionally, we incorporate a global Multi-Head Self-Attention (MHSA) mechanism and a deconvolutional layer to refine the up-sampling process. We evaluate mAPm on YOLOv7 using the MRLD and COCO datasets. Compared to vanilla FPN, BiFPN, NAS-FPN, PANET, and ACFPN, mAPm achieved a significant improvement in Average Precision (AP), with a +2.61% increase on the MRLD dataset compared to the baseline FPN method in YOLOv7. This demonstrates its effectiveness in handling scale variations. Furthermore, the versatility of mAPm allows its integration into various FPN-based object detection models, showcasing its potential to advance object detection techniques.

arxiv情報

著者 Yunusa Haruna,Shiyin Qin,Abdulrahman Hamman Adama Chukkol,Isah Bello,Adamu Lawan
発行日 2024-02-26 04:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク