HSEmotion Team at the 6th ABAW Competition: Facial Expressions, Valence-Arousal and Emotion Intensity Prediction

要約

この記事では、第 6 回野生感情行動分析 (ABAW) コンテストの結果を紹介します。
顔分析の信頼性を向上させるために、下流タスク用のニューラル ネットワークを微調整することなく、信頼できる感情的特徴を抽出する事前トレーニング済みの深層モデルを使用する可能性を研究しています。
特に、静止写真上の顔の表情、感情、興奮を認識するためにマルチタスク シナリオでトレーニングされた、MobileViT、MobileFaceNet、EfficientNet、および DDAMFN アーキテクチャに基づくいくつかの軽量モデルを紹介します。
これらのニューラル ネットワークは、フレーム レベルの特徴を抽出し、単純な分類器 (線形フィードフォワード ニューラル ネットワークなど) に入力して、感情の強さ、複合表現、アクション単位、顔の表情、および価性/覚醒を予測します。
6 回目の ABAW チャレンジの 5 つのタスクの実験結果は、私たちのアプローチにより、既存の非アンサンブル手法と比較して検証セットの品質指標を大幅に向上できることを示しています。

要約(オリジナル)

This article presents our results for the sixth Affective Behavior Analysis in-the-wild (ABAW) competition. To improve the trustworthiness of facial analysis, we study the possibility of using pre-trained deep models that extract reliable emotional features without the need to fine-tune the neural networks for a downstream task. In particular, we introduce several lightweight models based on MobileViT, MobileFaceNet, EfficientNet, and DDAMFN architectures trained in multi-task scenarios to recognize facial expressions, valence, and arousal on static photos. These neural networks extract frame-level features fed into a simple classifier, e.g., linear feed-forward neural network, to predict emotion intensity, compound expressions, action units, facial expressions, and valence/arousal. Experimental results for five tasks from the sixth ABAW challenge demonstrate that our approach lets us significantly improve quality metrics on validation sets compared to existing non-ensemble techniques.

arxiv情報

著者 Andrey V. Savchenko
発行日 2024-03-18 09:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.9 パーマリンク