FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space

要約

表情認識 (FER) は、人間の感情的な手がかりを理解する上で極めて重要な役割を果たします。
ただし、視覚情報に基づく従来の FER 手法には、前処理、特徴抽出、多段階分類手順などのいくつかの制限があります。
これらは計算の複雑さを増大させるだけでなく、大量のコンピューティング リソースを必要とします。
畳み込みニューラル ネットワーク (CNN) ベースの FER スキームでは、表情画像に埋め込まれた深く長距離の依存関係と、Transformer 固有の 2 次計算の複雑さを特定するのに不十分であることがよく判明していることを考慮して、この論文では、次の要素を統合する FER-YOLO-Mamba モデルを紹介します。
Mamba および YOLO テクノロジーの原理により、顔の表情の画像認識と位置特定における効率的な調整が容易になります。
FER-YOLO-Mamba モデル内で、FER-YOLO-VSS デュアル ブランチ モジュールをさらに考案します。これは、局所的な特徴抽出における畳み込み層の固有の強みと、長いデータを明らかにする状態空間モデル (SSM) の優れた機能を組み合わせたものです。
距離依存性。
私たちの知る限り、これは顔の表情の検出と分類のために設計された最初の Vision Mamba モデルです。
提案された FER-YOLO-Mamba モデルのパフォーマンスを評価するために、RAF-DB と SFEW の 2 つのベンチマーク データセットで実験を実施しました。
実験結果は、FER-YOLO-Mamba モデルが他のモデルと比較して優れた結果を達成したことを示しています。
コードは https://github.com/SwjtuMa/FER-YOLO-Mamba から入手できます。

要約(オリジナル)

Facial Expression Recognition (FER) plays a pivotal role in understanding human emotional cues. However, traditional FER methods based on visual information have some limitations, such as preprocessing, feature extraction, and multi-stage classification procedures. These not only increase computational complexity but also require a significant amount of computing resources. Considering Convolutional Neural Network (CNN)-based FER schemes frequently prove inadequate in identifying the deep, long-distance dependencies embedded within facial expression images, and the Transformer’s inherent quadratic computational complexity, this paper presents the FER-YOLO-Mamba model, which integrates the principles of Mamba and YOLO technologies to facilitate efficient coordination in facial expression image recognition and localization. Within the FER-YOLO-Mamba model, we further devise a FER-YOLO-VSS dual-branch module, which combines the inherent strengths of convolutional layers in local feature extraction with the exceptional capability of State Space Models (SSMs) in revealing long-distance dependencies. To the best of our knowledge, this is the first Vision Mamba model designed for facial expression detection and classification. To evaluate the performance of the proposed FER-YOLO-Mamba model, we conducted experiments on two benchmark datasets, RAF-DB and SFEW. The experimental results indicate that the FER-YOLO-Mamba model achieved better results compared to other models. The code is available from https://github.com/SwjtuMa/FER-YOLO-Mamba.

arxiv情報

著者 Hui Ma,Sen Lei,Turgay Celik,Heng-Chao Li
発行日 2024-05-10 02:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク