Spatial Transformer Network YOLO Model for Agricultural Object Detection

要約

物体検出は、対象となる物体を自律的に識別して位置を特定することにより、コンピューター ビジョンの分野で重要な役割を果たします。
You Only Look Once (YOLO) モデルは、効果的なシングルショット検出器です。
ただし、YOLO は乱雑なシーンや部分的に遮蔽されたシーンで課題に直面し、小さくてコントラストの低いオブジェクトに苦戦する可能性があります。
空間変換ネットワーク (STN) を YOLO に統合してパフォーマンスを向上させる新しい方法を提案します。
提案された STN-YOLO は、画像の重要な領域に焦点を当て、検出プロセスの前にモデルの空間的不変性を改善することで、モデルの有効性を高めることを目的としています。
提案手法は物体検出性能を定性的・定量的に向上させた。
STN モジュール内のさまざまな位置特定ネットワークの影響と、さまざまな空間変換にわたるモデルの堅牢性を調査します。
私たちは STN-YOLO を農産物検出用のベンチマーク データセットと、最先端の植物表現型解析温室施設からの新しいデータセットに適用します。
私たちのコードとデータセットは公開されています。

要約(オリジナル)

Object detection plays a crucial role in the field of computer vision by autonomously identifying and locating objects of interest. The You Only Look Once (YOLO) model is an effective single-shot detector. However, YOLO faces challenges in cluttered or partially occluded scenes and can struggle with small, low-contrast objects. We propose a new method that integrates spatial transformer networks (STNs) into YOLO to improve performance. The proposed STN-YOLO aims to enhance the model’s effectiveness by focusing on important areas of the image and improving the spatial invariance of the model before the detection process. Our proposed method improved object detection performance both qualitatively and quantitatively. We explore the impact of different localization networks within the STN module as well as the robustness of the model across different spatial transformations. We apply the STN-YOLO on benchmark datasets for Agricultural object detection as well as a new dataset from a state-of-the-art plant phenotyping greenhouse facility. Our code and dataset are publicly available.

arxiv情報

著者 Yash Zambre,Ekdev Rajkitkul,Akshatha Mohan,Joshua Peeples
発行日 2024-07-31 14:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク