Edge Attention Module for Object Classification

要約

この研究では、オブジェクト分類タスクに関する新しい「エッジ注意ベースの畳み込みニューラルネットワーク(CNN)」が提案されています。
高度なコンピューティングテクノロジーの出現により、CNNモデルは、特にコンピュータービジョンアプリケーションで顕著な成功を収めました。
それにもかかわらず、従来のCNNの有効性は、クラスの不均衡とクラス間の類似性の問題のためにしばしば妨げられます。これは、コンピュータービジョン分野で特に顕著です。
この研究では、マックスミンのプーリング層で構成される「エッジ注意モジュール(EAM)」を初めて紹介し、それに続いて畳み込み層を紹介します。
このマックスミンプーリングは、完全に新しいプーリング技術であり、オブジェクト分類タスクにとって重要なエッジ情報のみをキャプチャするように特別に設計されています。
したがって、この新しいプーリング手法を注意モジュールに統合することにより、CNNネットワークは本質的に必須エッジ機能を優先し、それによりモデルの精度とF1スコアが大幅に向上します。
CalTech-101、CalTech-256、CIFAR-100、および小さなImagenet-200データセットのいくつかの標準の事前訓練を受けたCNNモデルに提案されたEAMまたは2AIMを実装しました。
広範な実験では、提案されたフレームワーク(つまり、CNNを備えたEAMおよびCNNを使用した2AEM)が、すべての事前に訓練されたCNNモデルと最近のトレンドモデル「プーリングベースのビジョントランス(PIT)」、「畳み込み」を上回ることが明らかになりました。
かなりのマージンで、注意モジュール(CBAM) ”、およびCombNextをブロックします。
Caltech-101とCaltech-256データセットの提案されたフレームワークによって、それぞれ95.5%と86%の精度を達成しました。
これまでのところ、これは私たちの知る限り、これらのデータセットの最良の結果です。

要約(オリジナル)

A novel “edge attention-based Convolutional Neural Network (CNN)” is proposed in this research for object classification task. With the advent of advanced computing technology, CNN models have achieved to remarkable success, particularly in computer vision applications. Nevertheless, the efficacy of the conventional CNN is often hindered due to class imbalance and inter-class similarity problems, which are particularly prominent in the computer vision field. In this research, we introduce for the first time an “Edge Attention Module (EAM)” consisting of a Max-Min pooling layer, followed by convolutional layers. This Max-Min pooling is entirely a novel pooling technique, specifically designed to capture only the edge information that is crucial for any object classification task. Therefore, by integrating this novel pooling technique into the attention module, the CNN network inherently prioritizes on essential edge features, thereby boosting the accuracy and F1-score of the model significantly. We have implemented our proposed EAM or 2EAMs on several standard pre-trained CNN models for Caltech-101, Caltech-256, CIFAR-100 and Tiny ImageNet-200 datasets. The extensive experiments reveal that our proposed framework (that is, EAM with CNN and 2EAMs with CNN), outperforms all pre-trained CNN models as well as recent trend models “Pooling-based Vision Transformer (PiT)”, “Convolutional Block Attention Module (CBAM)”, and ConvNext, by substantial margins. We have achieved the accuracy of 95.5% and 86% by the proposed framework on Caltech-101 and Caltech-256 datasets, respectively. So far, this is the best results on these datasets, to the best of our knowledge.

arxiv情報

著者 Santanu Roy,Ashvath Suresh,Archit Gupta
発行日 2025-02-05 11:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク