MSSTNet: A Multi-Scale Spatio-Temporal CNN-Transformer Network for Dynamic Facial Expression Recognition

要約

一般的なビデオ動作認識とは異なり、動的顔表情認識 (DFER) には、個別に動くターゲットは含まれませんが、顔の筋肉の局所的な変化に依存します。
この独特の属性に対処して、マルチスケール時空間 CNN トランスフォーマー ネットワーク (MSSTNet) を提案します。
私たちのアプローチは、CNN によって抽出されたさまざまなスケールの空間特徴を取得し、それらをマルチスケール埋め込み層 (MELayer) にフィードします。
MELayer は、マルチスケールの空間情報を抽出し、これらの特徴を時間変換器 (T-Former) に送信する前にエンコードします。
T-Former は、マルチスケールの空間情報を継続的に統合しながら、時間情報を同時に抽出します。
このプロセスは最終的に、最終的な分類に使用されるマルチスケールの時空間特徴の生成になります。
私たちの手法は、2 つの実際のデータセットで最先端の結果を達成します。
さらに、一連のアブレーション実験と視覚化により、DFER 内の時空間情報を活用する際のアプローチの熟練度がさらに検証されます。

要約(オリジナル)

Unlike typical video action recognition, Dynamic Facial Expression Recognition (DFER) does not involve distinct moving targets but relies on localized changes in facial muscles. Addressing this distinctive attribute, we propose a Multi-Scale Spatio-temporal CNN-Transformer network (MSSTNet). Our approach takes spatial features of different scales extracted by CNN and feeds them into a Multi-scale Embedding Layer (MELayer). The MELayer extracts multi-scale spatial information and encodes these features before sending them into a Temporal Transformer (T-Former). The T-Former simultaneously extracts temporal information while continually integrating multi-scale spatial information. This process culminates in the generation of multi-scale spatio-temporal features that are utilized for the final classification. Our method achieves state-of-the-art results on two in-the-wild datasets. Furthermore, a series of ablation experiments and visualizations provide further validation of our approach’s proficiency in leveraging spatio-temporal information within DFER.

arxiv情報

著者 Linhuang Wang,Xin Kang,Fei Ding,Satoshi Nakagawa,Fuji Ren
発行日 2024-04-12 12:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク