Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection

要約

この論文では、高速かつ正確なシングルショット物体検出のための並列残差バイフュージョン特徴ピラミッド ネットワーク (PRB-FPN) を提案します。
特徴ピラミッド (FP) は最近の視覚検出で広く使用されていますが、FP のトップダウン経路ではプーリング シフトが原因で正確な位置特定を維持できません。
より多くの層を持つより深いバックボーンが使用されると、FP の利点は弱まります。
さらに、小さな物体と大きな物体の両方を同時に正確に検出し続けることはできません。
これらの問題に対処するために、双方向 (トップダウンとボトムアップ) 融合を備えた新しい並列 FP 構造と、正確な位置特定のための高品質の機能を維持するための関連改善を提案します。
以下の設計改善を提供します。 (1) ボトムアップ融合モジュール (BFM) を備えた並列ビフュージョン FP 構造により、小さな物体と大きな物体を同時に高精度で検出します。
(2) 連結および再構成 (CORE) モジュールは、特徴融合のためのボトムアップ経路を提供し、下位層の特徴マップから失われた情報を回復できる双方向融合 FP につながります。
(3) CORE 機能はさらに純化され、より豊富なコンテキスト情報が保持されます。
トップダウン経路とボトムアップ経路の両方におけるこのような CORE 精製は、わずか数回の反復で完了できます。
(4) CORE に残差設計を追加すると、新しい Re-CORE モジュールが生成され、簡単なトレーニングと、広範囲のより深いまたはより軽いバックボーンとの統合が可能になります。
提案されたネットワークは、UAVDT17 および MS COCO データセット上で最先端のパフォーマンスを実現します。
コードは https://github.com/pingyang1117/PRBNet_PyTorch で入手できます。

要約(オリジナル)

This paper proposes the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weakened as deeper backbones with more layers are used. In addition, it cannot keep up accurate detection of both small and large objects at the same time. To address these issues, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. We provide the following design improvements: (1) A parallel bifusion FP structure with a bottom-up fusion module (BFM) to detect both small and large objects at once with high accuracy. (2) A concatenation and re-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such CORE purification in both top-down and bottom-up pathways can be finished in only a few iterations. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of deeper or lighter backbones. The proposed network achieves state-of-the-art performance on the UAVDT17 and MS COCO datasets. Code is available at https://github.com/pingyang1117/PRBNet_PyTorch.

arxiv情報

著者 Ping-Yang Chen,Ming-Ching Chang,Jun-Wei Hsieh,Yong-Sheng Chen
発行日 2023-05-18 15:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク