要約
Convnextとそのバリアントの出現により、視力課題のCNNベースのモデルの概念的および構造的適合性が再確認され、一般的な画像分類および表現表現認識(FER)の主要なプレーヤーとしてそれらを再確立します。
このホワイトペーパーでは、トリプレットの注意と4つの異なるバリアントのスクイーズアンドエクステーション(Tripse)を組み合わせた新しい注意メカニズムを組み込むことにより、これらの進歩に基づいた新しいモデルのセットを提案します。
これらのバリアントをResNet18、Densenet、およびConvnextアーキテクチャに適用して、汎用性と影響を検証することにより、これらのバリアントの有効性を実証します。
私たちの研究は、これらのCNNモデルにトリップブロックを組み込むことで、特にConvnextアーキテクチャのパフォーマンスが向上し、その有用性を示すことが示されています。
4つのデータセットで提案されたメカニズムと関連モデル、すなわちCIFAR100、Imagenet、FER2013、およびTripse with TripseのConvnextが\ TextBFの精度で最先端の結果を達成し、FER2013 Datasetの\ TextBF {78.27 \%}の精度を達成します。
要約(オリジナル)
The emergence of ConvNeXt and its variants has reaffirmed the conceptual and structural suitability of CNN-based models for vision tasks, re-establishing them as key players in image classification in general, and in facial expression recognition (FER) in particular. In this paper, we propose a new set of models that build on these advancements by incorporating a new set of attention mechanisms that combines Triplet attention with Squeeze-and-Excitation (TripSE) in four different variants. We demonstrate the effectiveness of these variants by applying them to the ResNet18, DenseNet and ConvNext architectures to validate their versatility and impact. Our study shows that incorporating a TripSE block in these CNN models boosts their performances, particularly for the ConvNeXt architecture, indicating its utility. We evaluate the proposed mechanisms and associated models across four datasets, namely CIFAR100, ImageNet, FER2013 and AffectNet datasets, where ConvNext with TripSE achieves state-of-the-art results with an accuracy of \textbf{78.27\%} on the popular FER2013 dataset, a new feat for this dataset.
arxiv情報
著者 | Maan Alhazmi,Abdulrahman Altahhan |
発行日 | 2025-05-09 10:36:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google