Self-Balanced R-CNN for Instance Segmentation

要約

インスタンス セグメンテーション タスクに関する現在の最先端の 2 段階モデル​​には、いくつかの種類の不均衡が発生します。
この論文では、第 2 段階のトレーニング中の正の入力関心領域 (RoI) の共通交差点 (IoU) 分布の不均衡に対処します。
ハイブリッド タスク カスケード (HTC) モデルの進化版であるセルフバランス R-CNN (SBR-CNN) は、バウンディング ボックスとマスクを改良するまったく新しいループ メカニズムをもたらします。
改良された Generic RoI Extraction (GRoIE) により、バックボーン層の低レベル機能と高レベル機能の間の不均一な統合によって引き起こされる、機能ピラミッド ネットワーク (FPN) レベルでの機能レベルの不均衡にも対処します。
さらに、アーキテクチャの再設計により、FCC による完全な畳み込みアプローチが採用され、パラメータの数がさらに削減され、解決するタスクと使用される層の間の接続に関するより多くの手がかりが得られます。
さらに、当社の SBR-CNN モデルは、他の最先端のモデルと組み合わせて採用すると、同等かそれ以上の改善を示します。
実際、軽量の ResNet-50 をバックボーンとして使用し、COCO minival 2017 データセットで評価したモデルでは、12 エポックで追加のトリックなしで、オブジェクト検出とインスタンス セグメンテーションの AP が 45.3% と 41.5% に達しました。
コードは https://github.com/IMPLabUniPr/mmdetection/tree/sbr_cnn で入手できます。

要約(オリジナル)

Current state-of-the-art two-stage models on instance segmentation task suffer from several types of imbalances. In this paper, we address the Intersection over the Union (IoU) distribution imbalance of positive input Regions of Interest (RoIs) during the training of the second stage. Our Self-Balanced R-CNN (SBR-CNN), an evolved version of the Hybrid Task Cascade (HTC) model, brings brand new loop mechanisms of bounding box and mask refinements. With an improved Generic RoI Extraction (GRoIE), we also address the feature-level imbalance at the Feature Pyramid Network (FPN) level, originated by a non-uniform integration between low- and high-level features from the backbone layers. In addition, the redesign of the architecture heads toward a fully convolutional approach with FCC further reduces the number of parameters and obtains more clues to the connection between the task to solve and the layers used. Moreover, our SBR-CNN model shows the same or even better improvements if adopted in conjunction with other state-of-the-art models. In fact, with a lightweight ResNet-50 as backbone, evaluated on COCO minival 2017 dataset, our model reaches 45.3% and 41.5% AP for object detection and instance segmentation, with 12 epochs and without extra tricks. The code is available at https://github.com/IMPLabUniPr/mmdetection/tree/sbr_cnn

arxiv情報

著者 Leonardo Rossi,Akbar Karimi,Andrea Prati
発行日 2024-04-25 14:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク