YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles


私たちの肉眼は、遠くからでも文脈情報をほぼ瞬時に抽出することができますが、画像の解像度と計算リソースの制限により、より小さなオブジェクト (つまり、入力画像の小さなピクセル領域を占めるオブジェクト) を検出することは、マシンにとって真に困難なタスクになります。
この研究では、人気のある YOLOv5 オブジェクト検出器を変更して、自律型レースの特定のアプリケーションで、より小さなオブジェクトを検出するパフォーマンスを向上させる方法を探ります。
これを達成するために、モデルの特定の構造要素 (およびそれらの接続やその他のパラメーター) を置き換えると、パフォーマンスと推論時間にどのように影響するかを調査します。
そうすることで、「YOLO-Z」と名付けたさまざまなスケールの一連のモデルを提案します。このモデルは、50% IOU でより小さなオブジェクトを検出すると、mAP で最大 6.9% の改善を示します。
元の YOLOv5 と比較して、推論時間が 3 ミリ秒増加しました。
私たちの目的は、YOLOv5 などの一般的な検出器を調整して特定のタスクに対処し、特定の変更が小さなオブジェクトの検出にどのように影響するかについての洞察を提供する可能性に関する将来の研究を知らせることです。


As autonomous vehicles and autonomous racing rise in popularity, so does the need for faster and more accurate detectors. While our naked eyes are able to extract contextual information almost instantly, even from far away, image resolution and computational resources limitations make detecting smaller objects (that is, objects that occupy a small pixel area in the input image) a genuinely challenging task for machines and a wide-open research field. This study explores how the popular YOLOv5 object detector can be modified to improve its performance in detecting smaller objects, with a particular application in autonomous racing. To achieve this, we investigate how replacing certain structural elements of the model (as well as their connections and other parameters) can affect performance and inference time. In doing so, we propose a series of models at different scales, which we name `YOLO-Z’, and which display an improvement of up to 6.9% in mAP when detecting smaller objects at 50% IOU, at the cost of just a 3ms increase in inference time compared to the original YOLOv5. Our objective is to inform future research on the potential of adjusting a popular detector such as YOLOv5 to address specific tasks and provide insights on how specific changes can impact small object detection. Such findings, applied to the broader context of autonomous vehicles, could increase the amount of contextual information available to such systems.


著者 Aduen Benjumea,Izzeddin Teeti,Fabio Cuzzolin,Andrew Bradley
発行日 2023-01-02 16:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク