要約
オブジェクト検出は、コンピューター ビジョンと画像理解における基本的なタスクであり、画像内の対象オブジェクトを識別して位置特定し、それらに対応するクラス ラベルを割り当てることを目的としています。
手作りの特徴と浅いモデルに依存した従来の方法は、複雑な視覚データに苦労し、パフォーマンスが限られていました。
これらの方法では、低レベルの機能とコンテキスト情報が結合されており、高レベルのセマンティクスをキャプチャする機能が欠けていました。
ディープ ラーニング、特に畳み込みニューラル ネットワーク (CNN) は、豊富な階層特徴をデータから直接自動的に学習することで、これらの制限に対処しました。
これらの機能には、正確なオブジェクト検出に不可欠なセマンティック表現と高レベル表現の両方が含まれています。
このペーパーでは、古典的なコンピューター ビジョン手法から始めて、物体検出フレームワークをレビューします。
私たちは物体検出アプローチを 2 つのグループに分類します: (1) 古典的なコンピューター ビジョン技術と (2) CNN ベースの検出器。
主要な CNN モデルを比較し、その長所と限界について説明します。
結論として、このレビューでは、深層学習による物体検出の大幅な進歩を強調し、パフォーマンスを向上させるためにさらなる研究が必要な重要な領域を特定します。
要約(オリジナル)
Object detection is a fundamental task in computer vision and image understanding, with the goal of identifying and localizing objects of interest within an image while assigning them corresponding class labels. Traditional methods, which relied on handcrafted features and shallow models, struggled with complex visual data and showed limited performance. These methods combined low-level features with contextual information and lacked the ability to capture high-level semantics. Deep learning, especially Convolutional Neural Networks (CNNs), addressed these limitations by automatically learning rich, hierarchical features directly from data. These features include both semantic and high-level representations essential for accurate object detection. This paper reviews object detection frameworks, starting with classical computer vision methods. We categorize object detection approaches into two groups: (1) classical computer vision techniques and (2) CNN-based detectors. We compare major CNN models, discussing their strengths and limitations. In conclusion, this review highlights the significant advancements in object detection through deep learning and identifies key areas for further research to improve performance.
arxiv情報
著者 | Fnu Neha,Deepshikha Bhati,Deepak Kumar Shukla,Md Amiruzzaman |
発行日 | 2024-12-06 18:32:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google