SCAResNet: A ResNet Variant Optimized for Tiny Object Detection in Transmission and Distribution Towers

要約

従来の深層学習ベースの物体検出ネットワークでは、特徴マップ内で均一なサイズとスケールを実現するために、データの前処理段階で画像のサイズを変更することがよくあります。
サイズ変更は、モデルの伝播と完全に接続された分類を容易にするために行われます。
ただし、サイズを変更すると、必然的にオブジェクトが変形し、画像内の貴重な情報が失われます。
この欠点は、線形でピクセル数が少ない配電塔のような小さなオブジェクトの場合に特に顕著になります。
この問題に対処するために、サイズ変更操作を中止することを提案します。
代わりに、位置エンコーディングのマルチヘッド十字注意を導入します。
これにより、モデルはコンテキスト情報を取得し、複数の表現サブスペースから学習できるようになり、配電塔のセマンティクスを効果的に強化できます。
さらに、計算負荷を軽減しながら、プールされた 3 つの特徴マップを新しい統合マップに再形成することで、空間ピラミッド プーリングを強化します。
このアプローチにより、異なるサイズとスケールの画像から均一な寸法の特徴マップを生成でき、特徴マップの伝播に使用できます。
当社の SCAResNet は、前述の改善点をバックボーン ネットワーク ResNet に組み込んでいます。
私たちはデューク大学の送配電インフラ画像データセットを使用して SCAResNet を評価しました。
追加のトリックは何もせずに、ベースラインとしてガウス受容野ベースのラベル割り当てを使用したさまざまな物体検出モデルを採用しました。
SCAResNet をベースライン モデルに組み込むと、mAP で 2.1% の改善を達成しました。
これは、送電塔と配電塔の検出における当社の SCAResNet の利点と、小さな物体の検出におけるその価値を示しています。
ソース コードは https://github.com/LisavilaLee/SCAResNet_mmdet で入手できます。

要約(オリジナル)

Traditional deep learning-based object detection networks often resize images during the data preprocessing stage to achieve a uniform size and scale in the feature map. Resizing is done to facilitate model propagation and fully connected classification. However, resizing inevitably leads to object deformation and loss of valuable information in the images. This drawback becomes particularly pronounced for tiny objects like distribution towers with linear shapes and few pixels. To address this issue, we propose abandoning the resizing operation. Instead, we introduce Positional-Encoding Multi-head Criss-Cross Attention. This allows the model to capture contextual information and learn from multiple representation subspaces, effectively enriching the semantics of distribution towers. Additionally, we enhance Spatial Pyramid Pooling by reshaping three pooled feature maps into a new unified one while also reducing the computational burden. This approach allows images of different sizes and scales to generate feature maps with uniform dimensions and can be employed in feature map propagation. Our SCAResNet incorporates these aforementioned improvements into the backbone network ResNet. We evaluated our SCAResNet using the Electric Transmission and Distribution Infrastructure Imagery dataset from Duke University. Without any additional tricks, we employed various object detection models with Gaussian Receptive Field based Label Assignment as the baseline. When incorporating the SCAResNet into the baseline model, we achieved a 2.1% improvement in mAPs. This demonstrates the advantages of our SCAResNet in detecting transmission and distribution towers and its value in tiny object detection. The source code is available at https://github.com/LisavilaLee/SCAResNet_mmdet.

arxiv情報

著者 Weile Li,Muqing Shi,Zhonghua Hong
発行日 2024-04-05 15:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク