RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

要約

この研究では、ラベルのあいまいさ、オクルージョン、およびバックグラウンドブレンドでマークされた複雑な果樹園環境でグリーンフルーツを検出するためのRF-DERTオブジェクト検出ベースモデルとYOLOV12オブジェクト検出モデル構成の詳細な比較を実施します。
シングルクラス(グリーンフルーツ)とマルチクラス(オクルドおよび非閉鎖グリーンフルーツ)の両方の注釈を備えたカスタムデータセットが開発され、動的な現実世界の条件下でモデルのパフォーマンスを評価しました。
DinoV2バックボーンと変形可能な注意を利用して、グローバルなコンテキストモデリングに優れているRF-Detrオブジェクト検出モデルは、部分的に閉塞または曖昧なグリーンフルーツを効果的に識別しました。
対照的に、Yolov12は、局所的な特徴抽出を強化するためにCNNベースの注意をレバレバリングし、計算効率とエッジ展開のために最適化しました。
RF-Detrは、シングルクラスの検出で0.9464の最高平均平均精度(MAP50)を達成し、散らかったシーンでグリーンフルーツをローカライズする優れた能力を証明しました。
Yolov12Nは0.7620の50:95@50:95の最高マップを記録しましたが、RF-Detrは複雑な空間シナリオで一貫してアウトパフォームしました。
マルチクラス検出の場合、RF-Detrは0.8298の50@50でMAPでLEDを使用し、閉塞性と非閉塞性の果物を区別する能力を示し、Yolov12Lは0.6622でMAP@50:95で最高のスコアを獲得し、詳細なオクルージョンの状況でより良い分類を示しました。
トレーニングダイナミクス分析では、特に10エポック内でプラトーになったシングルクラスの設定で、RF-Detrの迅速な収束が強調されており、動的視覚データへの適応におけるトランスベースのアーキテクチャの効率を示しています。
これらの調査結果は、Yolov12が高速応答シナリオに適しているため、RF-Detrの精密な農業用途に対する有効性を検証します。
>インデックス項:RF-Detrオブジェクト検出、Yolov12、Yolov13、Yolov14、Yolov15、Yoloe、Yolo World、Yolo、あなたは一度だけ、roboflow、検出トランス、CNNS

要約(オリジナル)

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR’s swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR’s effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

arxiv情報

著者 Ranjan Sapkota,Rahul Harsha Cheppally,Ajay Sharda,Manoj Karkee
発行日 2025-04-17 17:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク