要約
車両の製造およびモデル認識(VMMR)は、インテリジェント輸送システムの重要な要素であり、近年大きな注目を集めています。
VMMRは、疑わしい車両の検出、都市交通の監視、および自律運転システムの検出に広く利用されています。
VMMRの複雑さは、車両モデルの微妙な視覚的区別と、メーカーが生産するさまざまなクラスから生じます。
顕著なタイプの深い学習モデルである畳み込みニューラルネットワーク(CNNS)は、VMMRを含むさまざまなコンピュータービジョンタスクで広く採用されており、顕著な結果が得られています。
VMMRはきめの細かい分類の問題であるため、主にクラス間の類似性とクラス内のバリエーションの課題に直面しています。
この調査では、これらの課題に対処し、際立った機能を含む重要な領域にモデルの焦点を強化するための注意モジュールを実装します。
元のモデルのパラメーターを増やさないこのモジュールは、3次元(3-D)注意ウェイトを生成して、機能マップを改良します。
提案されたモデルは、注意モジュールを畳み込みモデルの中央セクション内の2つの異なる場所に統合します。これらのセクションの機能マップは、過度に詳細または過度に粗くすることなく、入力フレームに関する十分な情報を提供します。
提案されたモデルのパフォーマンスは、最先端の(SOTA)畳み込みおよび変圧器ベースのモデルとともに、Stanford Carsデータセットを使用して評価されました。
提案されたモデルは、比較モデルの中で最も高い精度である90.69 \%を達成しました。
要約(オリジナル)
Vehicle make and model recognition (VMMR) is a crucial component of the Intelligent Transport System, garnering significant attention in recent years. VMMR has been widely utilized for detecting suspicious vehicles, monitoring urban traffic, and autonomous driving systems. The complexity of VMMR arises from the subtle visual distinctions among vehicle models and the wide variety of classes produced by manufacturers. Convolutional Neural Networks (CNNs), a prominent type of deep learning model, have been extensively employed in various computer vision tasks, including VMMR, yielding remarkable results. As VMMR is a fine-grained classification problem, it primarily faces inter-class similarity and intra-class variation challenges. In this study, we implement an attention module to address these challenges and enhance the model’s focus on critical areas containing distinguishing features. This module, which does not increase the parameters of the original model, generates three-dimensional (3-D) attention weights to refine the feature map. Our proposed model integrates the attention module into two different locations within the middle section of a convolutional model, where the feature maps from these sections offer sufficient information about the input frames without being overly detailed or overly coarse. The performance of our proposed model, along with state-of-the-art (SOTA) convolutional and transformer-based models, was evaluated using the Stanford Cars dataset. Our proposed model achieved the highest accuracy, 90.69\%, among the compared models.
arxiv情報
著者 | Narges Semiromizadeh,Omid Nejati Manzari,Shahriar B. Shokouhi,Sattar Mirzakuchaki |
発行日 | 2025-02-21 11:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google