MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

要約

動的表情認識 (DFER) は、インテリジェントで共感力のあるマシンの開発に不可欠です。
この分野におけるこれまでの取り組みは主に教師あり学習パラダイムに分類され、既存のデータセット内の限定されたラベル付きデータによって制限されます。
マスクされたオートエンコーダ (VideoMAE など) の最近の前例のない成功に触発されて、この論文は、DFER の開発を進めるために豊富なラベルなしデータに対する大規模な自己教師あり事前トレーニングを活用する新しい自己教師あり手法である MAE-DFER を提案します。
VideoMAE で採用されているバニラ ビジョン トランスフォーマー (ViT) は微調整中に大量の計算を必要とするため、MAE-DFER はエンコーダーとして効率的なローカル-グローバル インタラクション トランスフォーマー (LGI-Former) を開発します。
LGI-Former は、最初にローカル時空間領域での自己注意を制限し、次に学習可能な代表トークンの少数のセットを利用して効率的なローカルとグローバルの情報交換を実現することで、ViT におけるグローバル時空自己注意の高価な計算を回避します。
さらに、VideoMAE でのスタンドアロンの外観コンテンツの再構築に加えて、MAE-DFER は明示的な顔の動きモデリングも導入し、LGI-Former が静的な外観と動的動きの情報の両方を発掘できるようにします。
6 つのデータセットに対する広範な実験により、MAE-DFER が常に最新の教師あり手法を大幅に上回っていることが示され、大規模な自己教師付き事前トレーニングを通じて強力な動的な顔の表現を学習できることが実証されました。
さらに、VideoMAE と同等かそれ以上のパフォーマンスを持ちながら、計算コストを大幅に削減します (約 38\% FLOP)。
私たちは、MAE-DFER が DFER の進歩に新たな道を切り開き、この分野や他の関連タスクにおいてもより関連性の高い研究を刺激できると信じています。
コードとモデルは https://github.com/sunlicai/MAE-DFER で公開されています。

要約(オリジナル)

Dynamic facial expression recognition (DFER) is essential to the development of intelligent and empathetic machines. Prior efforts in this field mainly fall into supervised learning paradigm, which is restricted by the limited labeled data in existing datasets. Inspired by recent unprecedented success of masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel self-supervised method which leverages large-scale self-supervised pre-training on abundant unlabeled data to advance the development of DFER. Since the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial computation during fine-tuning, MAE-DFER develops an efficient local-global interaction Transformer (LGI-Former) as the encoder. LGI-Former first constrains self-attention in local spatiotemporal regions and then utilizes a small set of learnable representative tokens to achieve efficient local-global information exchange, thus avoiding the expensive computation of global space-time self-attention in ViT. Moreover, in addition to the standalone appearance content reconstruction in VideoMAE, MAE-DFER also introduces explicit facial motion modeling to encourage LGI-Former to excavate both static appearance and dynamic motion information. Extensive experiments on six datasets show that MAE-DFER consistently outperforms state-of-the-art supervised methods by significant margins, verifying that it can learn powerful dynamic facial representations via large-scale self-supervised pre-training. Besides, it has comparable or even better performance than VideoMAE, while largely reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has paved a new way for the advancement of DFER and can inspire more relavant research in this field and even other related tasks. Codes and models are publicly available at https://github.com/sunlicai/MAE-DFER.

arxiv情報

著者 Licai Sun,Zheng Lian,Bin Liu,Jianhua Tao
発行日 2023-07-05 12:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM パーマリンク