要約
本論文では、高速かつ高精度な単一ショット物体検出のための並列残差バイフュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。特徴ピラミッド(FP)は近年の視覚検出において広く用いられているが、FPのトップダウン経路はプーリングシフトのため、正確な位置情報を保持することができない。また、FPの利点は、より多くの層を持つ深いバックボーンを使用するほど弱くなる。また、小さな物体から大きな物体まで同時に正確に検出することができない。このような問題点を解決するために、我々は、高精度な位置検出のための高品質な特徴を保持するために、双方向(トップダウンとボトムアップ)フュージョンとそれに伴う改良を加えた新しい並列FP構造を提案する。我々は以下のような設計上の改善を行う.(1) ボトムアップ融合モジュール(BFM)を用いた並列双方向融合FP構造により、大小の物体を一度に高精度で検出する。(2) 連結・再組織化(CORE)モジュールが特徴量融合のためのボトムアップ経路を提供し、下位層の特徴マップから失われた情報を回復できる双方向融合FPにつながる。(3) CORE機能は、より豊かな文脈情報を保持するために、さらに精製される。このようなCOREの精製は、トップダウンとボトムアップの両方の経路で、わずか数回の繰り返しで終了することができる。(4) COREに残差設計を加えることで、新しいRe-COREモジュールが生まれ、より深い、あるいは軽いバックボーンとの幅広い学習と統合が容易にできるようになる。提案するネットワークは、UAVDT17とMS COCOデータセットにおいて、最先端の性能を達成する。コードは https://github.com/pingyang1117/PRBNet_PyTorch で公開されています。
要約(オリジナル)
This paper proposes the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weakened as deeper backbones with more layers are used. In addition, it cannot keep up accurate detection of both small and large objects at the same time. To address these issues, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. We provide the following design improvements: (1) A parallel bifusion FP structure with a bottom-up fusion module (BFM) to detect both small and large objects at once with high accuracy. (2) A concatenation and re-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such CORE purification in both top-down and bottom-up pathways can be finished in only a few iterations. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of deeper or lighter backbones. The proposed network achieves state-of-the-art performance on the UAVDT17 and MS COCO datasets. Code is available at https://github.com/pingyang1117/PRBNet_PyTorch.
arxiv情報
著者 | Ping-Yang Chen,Ming-Ching Chang,Jun-Wei Hsieh,Yong-Sheng Chen |
発行日 | 2022-09-07 09:36:06+00:00 |
arxivサイト | arxiv_id(pdf) |