SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation

要約

近年、ビジョン トランスフォーマーが顔認識と分析に導入され、パフォーマンスのブレークスルーを達成しました。
しかし、これまでの手法のほとんどは、一般に、単一のモデルまたはモデルの集合体をトレーニングして目的のタスクを実行します。これでは、異なるタスク間の相乗効果が無視され、予測精度の向上、データ効率の向上、トレーニング時間の短縮が達成できません。
この論文では、単一の Swin Transformer に基づいて、顔認識、表情認識、年齢推定、顔属性推定 (性別を含む 40 属性) を同時に行うための多目的アルゴリズムを紹介します。
私たちの設計である SwinFace は、単一の共有バックボーンと、関連タスクの各セットのサブネットで構成されています。
複数のタスク間の競合に対処し、タスクのさまざまな要求を満たすために、マルチレベル チャネル アテンション (MLCA) モジュールが各タスク固有の分析サブネットに統合されており、目的のタスクを実行するために最適なレベルとチャネルから機能を適応的に選択できます。
タスク。
広範な実験により、提案されたモデルが顔をよりよく理解し、すべてのタスクに対して優れたパフォーマンスを達成することが示されました。
特に、RAF-DBでは90.97%の精度、CLAP2015では0.22$\epsilon$-errorという精度を達成しており、それぞれ表情認識と年齢推定において最先端の結果となっている。
コードとモデルは https://github.com/lxq1000/SwinFace で公開されます。

要約(オリジナル)

In recent years, vision transformers have been introduced into face recognition and analysis and have achieved performance breakthroughs. However, most previous methods generally train a single model or an ensemble of models to perform the desired task, which ignores the synergy among different tasks and fails to achieve improved prediction accuracy, increased data efficiency, and reduced training time. This paper presents a multi-purpose algorithm for simultaneous face recognition, facial expression recognition, age estimation, and face attribute estimation (40 attributes including gender) based on a single Swin Transformer. Our design, the SwinFace, consists of a single shared backbone together with a subnet for each set of related tasks. To address the conflicts among multiple tasks and meet the different demands of tasks, a Multi-Level Channel Attention (MLCA) module is integrated into each task-specific analysis subnet, which can adaptively select the features from optimal levels and channels to perform the desired tasks. Extensive experiments show that the proposed model has a better understanding of the face and achieves excellent performance for all tasks. Especially, it achieves 90.97% accuracy on RAF-DB and 0.22 $\epsilon$-error on CLAP2015, which are state-of-the-art results on facial expression recognition and age estimation respectively. The code and models will be made publicly available at https://github.com/lxq1000/SwinFace.

arxiv情報

著者 Lixiong Qin,Mei Wang,Chao Deng,Ke Wang,Xi Chen,Jiani Hu,Weihong Deng
発行日 2023-08-22 15:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク