DPNet: Dual-Path Network for Real-time Object Detection with Lightweight Attention

要約

高精度の畳み込みニューラル ネットワーク (CNN) の圧縮に関する最近の進歩により、リアルタイムのオブジェクト検出が目覚ましい進歩を遂げています。
検出速度を加速するために、軽量の検出器は常に単一パス バックボーンを使用する畳み込み層がほとんどありません。
ただし、シングルパス アーキテクチャでは、継続的なプーリングとダウンサンプリング操作が必要になるため、オブジェクトの特定に不利な粗くて不正確なフィーチャ マップが常に作成されます。
一方で、ネットワーク容量が限られているため、最近の軽量ネットワークは、大規模な視覚データの表現に弱いことがよくあります。
これらの問題に対処するために、このホワイト ペーパーでは、DPNet という名前のデュアルパス ネットワークと、リアルタイムのオブジェクト検出のための軽量アテンション スキームを紹介します。
デュアルパス アーキテクチャにより、高レベルのセマンティック機能と低レベルのオブジェクトの詳細を並行して抽出できます。
DPNet は、単一パス検出器に関してほぼ複製された形状を持っていますが、計算コストとモデル サイズは大幅に増加しません。
表現能力を強化するために、軽量の自己相関モジュール (LSCM) は、グローバルな相互作用をキャプチャするように設計されており、計算オーバーヘッドとネットワーク パラメーターはわずかです。
ネックでは、LSCM は軽量相互相関モジュール (LCCM) に拡張され、隣接するスケール フィーチャ間の相互依存関係をキャプチャします。
MS COCO および Pascal VOC 2007 データセットで徹底的な実験を行いました。
実験結果は、DPNet が検出精度と実装効率の間で最先端のトレードオフを達成することを示しています。
具体的には、DPNet は、2 つのデータセットの 320 x 320 の入力画像で、MS COCO test-dev で 30.5% の AP、Pascal VOC 2007 テスト セットで 81.5% の mAP を達成しています。
.

要約(オリジナル)

The recent advances of compressing high-accuracy convolution neural networks (CNNs) have witnessed remarkable progress for real-time object detection. To accelerate detection speed, lightweight detectors always have few convolution layers using single-path backbone. Single-path architecture, however, involves continuous pooling and downsampling operations, always resulting in coarse and inaccurate feature maps that are disadvantageous to locate objects. On the other hand, due to limited network capacity, recent lightweight networks are often weak in representing large scale visual data. To address these problems, this paper presents a dual-path network, named DPNet, with a lightweight attention scheme for real-time object detection. The dual-path architecture enables us to parallelly extract high-level semantic features and low-level object details. Although DPNet has nearly duplicated shape with respect to single-path detectors, the computational costs and model size are not significantly increased. To enhance representation capability, a lightweight self-correlation module (LSCM) is designed to capture global interactions, with only few computational overheads and network parameters. In neck, LSCM is extended into a lightweight crosscorrelation module (LCCM), capturing mutual dependencies among neighboring scale features. We have conducted exhaustive experiments on MS COCO and Pascal VOC 2007 datasets. The experimental results demonstrate that DPNet achieves state-of the-art trade-off between detection accuracy and implementation efficiency. Specifically, DPNet achieves 30.5% AP on MS COCO test-dev and 81.5% mAP on Pascal VOC 2007 test set, together mwith nearly 2.5M model size, 1.04 GFLOPs, and 164 FPS and 196 FPS for 320 x 320 input images of two datasets.

arxiv情報

著者 Quan Zhou,Huimin Shi,Weikang Xiang,Bin Kang,Xiaofu Wu,Longin Jan Latecki
発行日 2022-09-28 09:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク