HSE-NN Team at the 4th ABAW Competition: Multi-task Emotion Recognition and Learning from Synthetic Images

要約

この論文では、野生の感情行動分析 (ABAW) に関する第 4 回大会での HSE-NN チームの結果を紹介します。
新しいマルチタスク EfficientNet モデルは、顔の表情を同時に認識し、静的な写真の価数と覚醒を予測するようにトレーニングされています。
得られた MT-EmotiEffNet は、マルチタスク学習課題で単純なフィードフォワード ニューラル ネットワークに供給される視覚的特徴を抽出します。
検証セットでパフォーマンス測定値 1.3 を取得しました。これは、ベースラインのパフォーマンス (0.3) または s-Aff-Wild2 データベースのみでトレーニングされた既存のモデルと比較して大幅に優れています。
合成データからの学習の課題では、Real-ESRGAN などの超解像技術を使用して、元の合成トレーニング セットの品質を向上させます。
次に、MT-EmotiEffNet が新しいトレーニング セットで微調整されます。
最終的な予測は、事前にトレーニングされ微調整された MT-EmotiEffNet の単純なブレンディング アンサンブルです。
私たちの平均検証 F1 スコアは、ベースラインの畳み込みニューラル ネットワークよりも 18% 大きくなっています。

要約(オリジナル)

In this paper, we present the results of the HSE-NN team in the 4th competition on Affective Behavior Analysis in-the-wild (ABAW). The novel multi-task EfficientNet model is trained for simultaneous recognition of facial expressions and prediction of valence and arousal on static photos. The resulting MT-EmotiEffNet extracts visual features that are fed into simple feed-forward neural networks in the multi-task learning challenge. We obtain performance measure 1.3 on the validation set, which is significantly greater when compared to either performance of baseline (0.3) or existing models that are trained only on the s-Aff-Wild2 database. In the learning from synthetic data challenge, the quality of the original synthetic training set is increased by using the super-resolution techniques, such as Real-ESRGAN. Next, the MT-EmotiEffNet is fine-tuned on the new training set. The final prediction is a simple blending ensemble of pre-trained and fine-tuned MT-EmotiEffNets. Our average validation F1 score is 18% greater than the baseline convolutional neural network.

arxiv情報

著者 Andrey V. Savchenko
発行日 2022-10-20 14:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.9 パーマリンク