オブジェクト検出は、コンピューター ビジョンと画像理解における基本的なタスクであり、画像内の対象オブジェクトを識別して位置特定し、それらに対応するクラス ラベルを割り当てることを目的としています。
ディープ ラーニング、特に畳み込みニューラル ネットワーク (CNN) は、豊富な階層特徴をデータから直接自動的に学習することで、これらの制限に対処しました。
このペーパーでは、古典的なコンピューター ビジョン手法から始めて、物体検出フレームワークをレビューします。
私たちは物体検出アプローチを 2 つのグループに分類します: (1) 古典的なコンピューター ビジョン技術と (2) CNN ベースの検出器。
主要な CNN モデルを比較し、その長所と限界について説明します。
Object detection is a fundamental task in computer vision and image understanding, with the goal of identifying and localizing objects of interest within an image while assigning them corresponding class labels. Traditional methods, which relied on handcrafted features and shallow models, struggled with complex visual data and showed limited performance. These methods combined low-level features with contextual information and lacked the ability to capture high-level semantics. Deep learning, especially Convolutional Neural Networks (CNNs), addressed these limitations by automatically learning rich, hierarchical features directly from data. These features include both semantic and high-level representations essential for accurate object detection. This paper reviews object detection frameworks, starting with classical computer vision methods. We categorize object detection approaches into two groups: (1) classical computer vision techniques and (2) CNN-based detectors. We compare major CNN models, discussing their strengths and limitations. In conclusion, this review highlights the significant advancements in object detection through deep learning and identifies key areas for further research to improve performance.
著者 | Fnu Neha,Deepshikha Bhati,Deepak Kumar Shukla,Md Amiruzzaman |
発行日 | 2024-12-06 18:32:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google