Rethinking the backbone architecture for tiny object detection

要約

小さな物体の検出は、いくつかの重要な実世界のシナリオで小さなターゲットを含む画像が一般的であるため、活発な研究分野になっています。
ただし、既存の小さなオブジェクト検出方法では、バックボーン アーキテクチャとして標準的なディープ ニューラル ネットワークが使用されています。
このようなバックボーンは、大きなオブジェクトの分類用に設計されており、小さなターゲットを識別するための空間分解能がないため、小さなオブジェクトの検出には不適切であると主張します。
具体的には、このようなバックボーンは、アーキテクチャの初期段階で max-pooling または大きなストライドを使用します。
これにより、後続のレイヤーで効率的に処理できる低解像度の特徴マップが生成されます。
ただし、このような低解像度の特徴マップには、小さなオブジェクトを確実に区別できる情報は含まれていません。
この問題を解決するために、全体的な計算負荷を追加することなく、より多くのリソースをより高解像度の機能の処理に割り当てるバックボーンの「ボトムヘビー」バージョンを設計します。
また、CIFAR100 と ImageNet32 を使用して、適切なサイズの画像でこれらのバックボーンを事前トレーニングすると、小さなオブジェクト検出のパフォーマンスがさらに向上するかどうかも調査します。
TinyPerson と WiderFace の結果は、提案されたバックボーンを備えた検出器が現在の最先端の方法よりも優れた結果を達成することを示しています。

要約(オリジナル)

Tiny object detection has become an active area of research because images with tiny targets are common in several important real-world scenarios. However, existing tiny object detection methods use standard deep neural networks as their backbone architecture. We argue that such backbones are inappropriate for detecting tiny objects as they are designed for the classification of larger objects, and do not have the spatial resolution to identify small targets. Specifically, such backbones use max-pooling or a large stride at early stages in the architecture. This produces lower resolution feature-maps that can be efficiently processed by subsequent layers. However, such low-resolution feature-maps do not contain information that can reliably discriminate tiny objects. To solve this problem we design ‘bottom-heavy’ versions of backbones that allocate more resources to processing higher-resolution features without introducing any additional computational burden overall. We also investigate if pre-training these backbones on images of appropriate size, using CIFAR100 and ImageNet32, can further improve performance on tiny object detection. Results on TinyPerson and WiderFace show that detectors with our proposed backbones achieve better results than the current state-of-the-art methods.

arxiv情報

著者 Jinlai Ning,Haoyan Guan,Michael Spratling
発行日 2023-03-20 16:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク