BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture

要約

この論文では、アンカーベースの物体検出モデル用の新しい縮小アンサンブル アーキテクチャである Budding Ensemble Architecture (BEA) を紹介します。
物体検出モデルは、ビジョンベースのタスク、特に自律システムにおいて重要です。
正確な境界ボックス検出を提供すると同時に、予測信頼スコアを調整して、より高品質な不確実性推定を実現する必要があります。
ただし、現在のモデルでは、偽陽性が高いスコアを取得したり、真陽性が低いスコアのために破棄されたりするため、誤った決定を下す可能性があります。
BEA はこれらの問題に対処することを目指しています。
BEA で提案された損失関数は、信頼度スコアのキャリブレーションを改善し、不確実性誤差を低減します。その結果、真陽性と偽陽性の区別が向上し、最終的には物体検出モデルの精度が向上します。
Base-YOLOv3 モデルと SSD モデルは両方とも、BEA 手法とその提案された損失関数を使用して強化されました。
KITTI データセットでトレーニングされた Base-YOLOv3 の BEA では、mAP と AP50 がそれぞれ 6% と 3.7% 増加しました。
バランスのとれた不確実性推定しきい値を利用してリアルタイムでサンプルを廃棄することにより、AP50 が基本モデルよりも 9.6% 高くなります。
これは、信頼スコアのキャリブレーションの品質を測定するために使用される AP50 ベースの保持曲線の下の領域が 40% 増加したことに起因します。
さらに、KITTI でトレーニングされた BEA-YOLOV3 は、YOLOv3 および Gaussian-YOLOv3 のアンサンブル モデルとバニラ モデルと比較して、Citypersons、BDD100K、および COCO データセットに対して優れた分布外検出を提供します。

要約(オリジナル)

This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.

arxiv情報

著者 Syed Sha Qutub,Neslihan Kose,Rafael Rosales,Michael Paulitsch,Korbinian Hagn,Florian Geissler,Yang Peng,Gereon Hinz,Alois Knoll
発行日 2023-11-10 12:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T37, cs.AI, cs.CV パーマリンク