要約
顔の表情は人間のコミュニケーションにおいて重要な役割を果たしており、さまざまな感情を表現するための強力かつインパクトのある手段として機能します。
人工知能とコンピューター ビジョンの進歩により、ディープ ニューラル ネットワークが顔の感情認識の効果的なツールとして登場しました。
この論文では、適応された ConvNeXt アーキテクチャ ネットワークに基づく顔の表情認識のための新しい深層学習フレームワークである EmoNeXt を提案します。
空間トランスフォーマー ネットワーク (STN) を統合して、顔の特徴が豊富な領域に焦点を当て、スクイーズ アンド 励起ブロックを統合してチャネルごとの依存関係をキャプチャします。
さらに、セルフアテンション正則化項を導入し、モデルがコンパクトな特徴ベクトルを生成することを促進します。
感情分類の精度に関して、FER2013 データセット上の既存の最先端の深層学習モデルよりも当社のモデルの優位性を実証します。
要約(オリジナル)
Facial expressions play a crucial role in human communication serving as a powerful and impactful means to express a wide range of emotions. With advancements in artificial intelligence and computer vision, deep neural networks have emerged as effective tools for facial emotion recognition. In this paper, we propose EmoNeXt, a novel deep learning framework for facial expression recognition based on an adapted ConvNeXt architecture network. We integrate a Spatial Transformer Network (STN) to focus on feature-rich regions of the face and Squeeze-and-Excitation blocks to capture channel-wise dependencies. Moreover, we introduce a self-attention regularization term, encouraging the model to generate compact feature vectors. We demonstrate the superiority of our model over existing state-of-the-art deep learning models on the FER2013 dataset regarding emotion classification accuracy.
arxiv情報
著者 | Yassine El Boudouri,Amine Bohi |
発行日 | 2025-01-14 15:23:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google