DANet: Enhancing Small Object Detection through an Efficient Deformable Attention Network

要約

製造現場における欠陥や亀裂などの小さな物体を効率的かつ正確に検出することは、製品の品質と安全性を確保するために非常に重要です。
この問題に対処するために、私たちは Faster R-CNN と最先端の手法を相乗させて包括的な戦略を提案しました。
Faster R-CNN と特徴ピラミッド ネットワークを組み合わせることで、モデルが製造環境に固有のマルチスケール特徴を効率的に処理できるようになります。
さらに、欠陥の幾何学的変化に合わせて変形して適合する Deformable Net が使用されており、微細で複雑な特徴も正確に検出できます。
次に、畳み込みブロック アテンション モジュールと呼ばれるアテンション メカニズムをベースの ResNet50 ネットワークの各ブロックに組み込んで、有益な機能を選択的に強調し、あまり有用でない機能を抑制しました。
その後、RoI Align を組み込み、RoI Pooling を置き換えて関心領域をより細かく調整し、最後に Focal Loss の統合により、まれな欠陥の発生に不可欠なクラスの不均衡を効果的に処理しました。
NEU-DET と Pascal VOC データセットの両方に対するモデルの厳密な評価により、その堅牢なパフォーマンスと一般化機能が強調されます。
NEU-DET データセット上で、私たちのモデルは鋼の欠陥を深く理解しており、さまざまな欠陥を識別する際に最先端の精度を達成しました。
同時に、Pascal VOC データセットで評価すると、私たちのモデルは、複雑で小さなシーン内の幅広いカテゴリにわたるオブジェクトを検出する能力を示します。

要約(オリジナル)

Efficient and accurate detection of small objects in manufacturing settings, such as defects and cracks, is crucial for ensuring product quality and safety. To address this issue, we proposed a comprehensive strategy by synergizing Faster R-CNN with cutting-edge methods. By combining Faster R-CNN with Feature Pyramid Network, we enable the model to efficiently handle multi-scale features intrinsic to manufacturing environments. Additionally, Deformable Net is used that contorts and conforms to the geometric variations of defects, bringing precision in detecting even the minuscule and complex features. Then, we incorporated an attention mechanism called Convolutional Block Attention Module in each block of our base ResNet50 network to selectively emphasize informative features and suppress less useful ones. After that we incorporated RoI Align, replacing RoI Pooling for finer region-of-interest alignment and finally the integration of Focal Loss effectively handles class imbalance, crucial for rare defect occurrences. The rigorous evaluation of our model on both the NEU-DET and Pascal VOC datasets underscores its robust performance and generalization capabilities. On the NEU-DET dataset, our model exhibited a profound understanding of steel defects, achieving state-of-the-art accuracy in identifying various defects. Simultaneously, when evaluated on the Pascal VOC dataset, our model showcases its ability to detect objects across a wide spectrum of categories within complex and small scenes.

arxiv情報

著者 Md Sohag Mia,Abdullah Al Bary Voban,Abu Bakor Hayat Arnob,Abdu Naim,Md Kawsar Ahmed,Md Shariful Islam
発行日 2023-10-13 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク