SVFAP: Self-supervised Video Facial Affect Perceiver

要約

ビデオベースの顔の感情分析は、人間とコンピューターのインタラクションにおいて重要な役割を果たしているため、最近ますます注目を集めています。
これまでの研究は主に、さまざまな深層学習アーキテクチャの開発と、完全に教師付きの方法でそれらをトレーニングすることに焦点を当てていました。
これらの教師付き手法によって大幅な進歩が達成されましたが、大規模で高品質なラベル付きデータが長年不足していることが、さらなる改善の大きな妨げとなっています。
コンピュータ ビジョンにおける自己教師あり学習の最近の成功を動機として、この論文では、教師あり手法が直面するジレンマに対処するために、自己教師ありビデオ顔面影響知覚装置 (SVFAP) と呼ばれる自己教師ありアプローチを紹介します。
具体的には、SVFAP はマスクされた顔ビデオの自動エンコーディングを利用して、ラベルのない大規模な顔ビデオに対して自己教師付きの事前トレーニングを実行します。
顔ビデオには大きな時空間冗長性が存在することを考慮して、SVFAPのエンコーダとして新しい時間ピラミッドと空間ボトルネックTransformerを提案します。これは、計算コストを大幅に削減するだけでなく、優れたパフォーマンスも実現します。
私たちの方法の有効性を検証するために、動的表情認識、次元感情認識、性格認識を含む 3 つの下流タスクにわたる 9 つのデータセットに対して実験を実施します。
包括的な結果は、SVFAP が大規模な自己教師付き事前トレーニングを通じて強力な感情関連表現を学習でき、すべてのデータセットに対して以前の最先端の手法を大幅に上回るパフォーマンスを示していることを示しています。
コードは https://github.com/sunlicai/SVFAP で入手できます。

要約(オリジナル)

Video-based facial affect analysis has recently attracted increasing attention owing to its critical role in human-computer interaction. Previous studies mainly focus on developing various deep learning architectures and training them in a fully supervised manner. Although significant progress has been achieved by these supervised methods, the longstanding lack of large-scale high-quality labeled data severely hinders their further improvements. Motivated by the recent success of self-supervised learning in computer vision, this paper introduces a self-supervised approach, termed Self-supervised Video Facial Affect Perceiver (SVFAP), to address the dilemma faced by supervised methods. Specifically, SVFAP leverages masked facial video autoencoding to perform self-supervised pre-training on massive unlabeled facial videos. Considering that large spatiotemporal redundancy exists in facial videos, we propose a novel temporal pyramid and spatial bottleneck Transformer as the encoder of SVFAP, which not only largely reduces computational costs but also achieves excellent performance. To verify the effectiveness of our method, we conduct experiments on nine datasets spanning three downstream tasks, including dynamic facial expression recognition, dimensional emotion recognition, and personality recognition. Comprehensive results demonstrate that SVFAP can learn powerful affect-related representations via large-scale self-supervised pre-training and it significantly outperforms previous state-of-the-art methods on all datasets. Code is available at https://github.com/sunlicai/SVFAP.

arxiv情報

著者 Licai Sun,Zheng Lian,Kexin Wang,Yu He,Mingyu Xu,Haiyang Sun,Bin Liu,Jianhua Tao
発行日 2024-10-01 07:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.MM パーマリンク