Fast and Accurate Object Detection on Asymmetrical Receptive Field

要約

物体検出は幅広い業界で使用されています。
たとえば、自動運転における物体検出のタスクは、道路のビデオから、あらかじめ定義された多数のクラスの物体 (車両、歩行者、交通標識など) を正確かつ効率的に識別し、位置を特定することです。
ロボット工学では、産業用ロボットは特定の機械要素を認識する必要があります。
セキュリティ分野では、カメラは人々の顔をそれぞれ正確に認識する必要があります。
ディープラーニングの幅広い応用により、物体検出の精度と効率は大幅に向上しましたが、ディープラーニングに基づく物体検出には依然として課題が残されています。
物体検出のさまざまなアプリケーションには、高精度の検出、マルチカテゴリの物体検出、リアルタイム検出、オクルージョンに対する堅牢性など、さまざまな要件があります。上記の課題に対処するために、この論文では、広範な文献調査に基づいて、改善および改善のための方法を分析します。
1 段階および 2 段階の物体検出アルゴリズムの進化の観点から、主流の物体検出アルゴリズムを最適化します。
さらに本稿では、受容野の変化という観点から物体検出精度を向上させる手法を提案する。
新しいモデルは、オリジナルの YOLOv5 (You Look Only Once) にいくつかの変更を加えたものです。
YOLOv5 のヘッド部分の構造は、非対称プーリング層を追加することによって変更されます。
これにより、速度を確保しつつアルゴリズムの精度が向上する。
この記事の新しいモデルのパフォーマンスは、元の YOLOv5 モデルと比較され、いくつかのパラメーターから分析されます。
そして新型モデルの評価を4つのシチュエーションで提示する。
さらに、解決すべき課題と今後の研究の方向性について総括と展望を行う。

要約(オリジナル)

Object detection has been used in a wide range of industries. For example, in autonomous driving, the task of object detection is to accurately and efficiently identify and locate a large number of predefined classes of object instances (vehicles, pedestrians, traffic signs, etc.) from videos of roads. In robotics, the industry robot needs to recognize specific machine elements. In the security field, the camera should accurately recognize each face of people. With the wide application of deep learning, the accuracy and efficiency of object detection have been greatly improved, but object detection based on deep learning still faces challenges. Different applications of object detection have different requirements, including highly accurate detection, multi-category object detection, real-time detection, robustness to occlusions, etc. To address the above challenges, based on extensive literature research, this paper analyzes methods for improving and optimizing mainstream object detection algorithms from the perspective of evolution of one-stage and two-stage object detection algorithms. Furthermore, this article proposes methods for improving object detection accuracy from the perspective of changing receptive fields. The new model is based on the original YOLOv5 (You Look Only Once) with some modifications. The structure of the head part of YOLOv5 is modified by adding asymmetrical pooling layers. As a result, the accuracy of the algorithm is improved while ensuring the speed. The performances of the new model in this article are compared with original YOLOv5 model and analyzed from several parameters. And the evaluation of the new model is presented in four situations. Moreover, the summary and outlooks are made on the problems to be solved and the research directions in the future.

arxiv情報

著者 Tianhao Lin
発行日 2024-08-08 09:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク