Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection

要約

この論文では、高速で正確なシングル ショット オブジェクト検出のための並列残差バイフュージョン機能ピラミッド ネットワーク (PRB-FPN) を提案します。
Feature Pyramid (FP) は、最近の視覚的検出で広く使用されていますが、FP のトップダウン経路は、プーリング シフトのために正確なローカリゼーションを維持できません。
より多くのレイヤーを持つより深いバックボーンが使用されると、FP の利点は弱まります。
また、小さなオブジェクトと大きなオブジェクトの両方を同時に正確に検出することはできません。
これらの問題に対処するために、双方向(トップダウンとボトムアップ)の融合と関連する改善を備えた新しい並列FP構造を提案し、正確な位置特定のために高品質の機能を保持します。
以下の設計改善を提供します。 (1) 小さいオブジェクトと大きいオブジェクトの両方を一度に高精度で検出するためのボトムアップ フュージョン モジュール (BFM) を備えた並列バイフュージョン FP 構造。
(2)連結および再編成(CORE)モジュールは、機能融合のためのボトムアップ経路を提供します。これにより、下位層の機能マップから失われた情報を回復できる双方向融合 FP につながります。
(3) CORE 機能は、より豊富なコンテキスト情報を保持するためにさらに精製されます。
トップダウン経路とボトムアップ経路の両方でのこのようなコア精製は、数回の反復で完了することができます。
(4) CORE に残差設計を追加すると、新しい Re-CORE モジュールが生まれ、トレーニングが容易になり、さまざまな深いバックボーンまたは軽いバックボーンとの統合が可能になります。
提案されたネットワークは、UAVDT17 および MS COCO データセットで最先端のパフォーマンスを実現します。
コードは https://github.com/pingyang1117/PRBNet_PyTorch で入手できます。

要約(オリジナル)

This paper proposes the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weakened as deeper backbones with more layers are used. In addition, it cannot keep up accurate detection of both small and large objects at the same time. To address these issues, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. We provide the following design improvements: (1) A parallel bifusion FP structure with a bottom-up fusion module (BFM) to detect both small and large objects at once with high accuracy. (2) A concatenation and re-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such CORE purification in both top-down and bottom-up pathways can be finished in only a few iterations. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of deeper or lighter backbones. The proposed network achieves state-of-the-art performance on the UAVDT17 and MS COCO datasets. Code is available at https://github.com/pingyang1117/PRBNet_PyTorch.

arxiv情報

著者 Ping-Yang Chen,Ming-Ching Chang,Jun-Wei Hsieh,Yong-Sheng Chen
発行日 2023-02-20 14:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク