YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles

要約

自律走行車や自律走行レースの普及に伴い、より高速で高精度な検出器が必要とされています。私たちの裸眼は、遠くからでもほぼ瞬時に文脈情報を抽出することができますが、画像の解像度と計算機資源の制限により、小さな物体(つまり、入力画像の小さなピクセル領域を占める物体)の検出は機械にとって真に難しいタスクであり、広く開かれた研究領域となっています。本研究では、一般的な物体検出器であるYOLOv5を改良することで、より小さな物体の検出性能を向上させる方法を検討し、特に自律走行レースへの応用を目指す。そのために、モデルの特定の構造要素(およびその接続や他のパラメータ)を置き換えることで、性能と推論時間にどのような影響を与えるかを調査する。YOLO-Zは、50%のIOUで小さな物体を検出する際に、オリジナルのYOLOv5と比較して推論時間が3ms増加するだけで、mAPが最大6.9%改善されることを示す。我々の目的は、特定のタスクに対応するためにYOLOv5のような一般的な検出器を調整する可能性について将来の研究に情報を提供し、特定の変更が小物体の検出にどのように影響を与えるかについての洞察を提供することである。このような知見は、自律走行車のより広い文脈に適用され、そのようなシステムが利用できる文脈情報の量を増加させる可能性があります。

要約(オリジナル)

As autonomous vehicles and autonomous racing rise in popularity, so does the need for faster and more accurate detectors. While our naked eyes are able to extract contextual information almost instantly, even from far away, image resolution and computational resources limitations make detecting smaller objects (that is, objects that occupy a small pixel area in the input image) a genuinely challenging task for machines and a wide-open research field. This study explores how the popular YOLOv5 object detector can be modified to improve its performance in detecting smaller objects, with a particular application in autonomous racing. To achieve this, we investigate how replacing certain structural elements of the model (as well as their connections and other parameters) can affect performance and inference time. In doing so, we propose a series of models at different scales, which we name `YOLO-Z’, and which display an improvement of up to 6.9% in mAP when detecting smaller objects at 50% IOU, at the cost of just a 3ms increase in inference time compared to the original YOLOv5. Our objective is to inform future research on the potential of adjusting a popular detector such as YOLOv5 to address specific tasks and provide insights on how specific changes can impact small object detection. Such findings, applied to the broader context of autonomous vehicles, could increase the amount of contextual information available to such systems.

arxiv情報

著者 Aduen Benjumea,Izzeddin Teeti,Fabio Cuzzolin,Andrew Bradley
発行日 2023-01-03 09:18:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク