YOLOSA: Object detection based on 2D local feature superimposed self-attention

要約

リアルタイムのオブジェクト検出モデルのネットワーク構造を分析したところ、機能の連結段階の機能が非常に豊富であることがわかりました。
ここにアテンションモジュールを適用すると、モデルの検出精度を効果的に向上させることができます。
ただし、一般的に使用されるアテンションモジュールまたはセルフアテンションモジュールは、検出精度と推論効率のパフォーマンスが低くなります。
したがって、ネックネットワークの特徴連結段階のために、2Dローカル特徴重ね合わせ自己注意と呼ばれる新しい自己注意モジュールを提案します。
この自己注意モジュールは、ローカル機能とローカル受容野を通じてグローバル機能を反映します。
また、効率的なデカップリングヘッドとAB-OTAを提案および最適化し、SOTAの結果を達成します。
提案された改善を使用して構築された大規模、中規模、および小規模のモデルで、49.0 \%(66.2 FPS)、46.1 \%(80.6 FPS)、および39.1 \%(100 FPS)の平均精度が得られました。
私たちのモデルは、平均精度でYOLOv5を0.8 \%-3.1 \%上回りました。

要約(オリジナル)

We analyzed the network structure of real-time object detection models and found that the features in the feature concatenation stage are very rich. Applying an attention module here can effectively improve the detection accuracy of the model. However, the commonly used attention module or self-attention module shows poor performance in detection accuracy and inference efficiency. Therefore, we propose a novel self-attention module, called 2D local feature superimposed self-attention, for the feature concatenation stage of the neck network. This self-attention module reflects global features through local features and local receptive fields. We also propose and optimize an efficient decoupled head and AB-OTA, and achieve SOTA results. Average precisions of 49.0\% (66.2 FPS), 46.1\% (80.6 FPS), and 39.1\% (100 FPS) were obtained for large, medium, and small-scale models built using our proposed improvements. Our models exceeded YOLOv5 by 0.8\% — 3.1\% in average precision.

arxiv情報

著者 Weisheng Li,Lin Huang
発行日 2022-06-23 16:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク