HSE-NN Team at the 4th ABAW Competition: Multi-task Emotion Recognition and Learning from Synthetic Images

要約

この論文では、第4回応用行動分析(ABAW)に関するHSE-NNチームの結果を紹介します。
新しいマルチタスクEfficientNetモデルは、顔の表情を同時に認識し、静止写真の感情価と覚醒を予測するようにトレーニングされています。
結果として得られるMT-EmotiEffNetは、マルチタスク学習チャレンジで単純なフィードフォワードニューラルネットワークに供給される視覚的特徴を抽出します。
検証セットでパフォーマンス測定値1.3を取得します。これは、ベースライン(0.3)またはs-Aff-Wild2データベースでのみトレーニングされた既存のモデルのパフォーマンスと比較した場合に大幅に高くなります。
合成データからの学習チャレンジでは、Real-ESRGANなどの超解像技術を使用することにより、元の合成トレーニングセットの品質が向上します。
次に、MT-EmotiEffNetは新しいトレーニングセットで微調整されます。
最終的な予測は、事前にトレーニングされ、微調整されたMT-EmotiEffNetの単純なブレンドアンサンブルです。
私たちの平均検証F1スコアは、ベースライン畳み込みニューラルネットワークよりも18%大きくなっています。

要約(オリジナル)

In this paper, we present the results of the HSE-NN team in the 4th competition on Affective Behavior Analysis in-the-wild (ABAW). The novel multi-task EfficientNet model is trained for simultaneous recognition of facial expressions and prediction of valence and arousal on static photos. The resulting MT-EmotiEffNet extracts visual features that are fed into simple feed-forward neural networks in the multi-task learning challenge. We obtain performance measure 1.3 on the validation set, which is significantly greater when compared to either performance of baseline (0.3) or existing models that are trained only on the s-Aff-Wild2 database. In the learning from synthetic data challenge, the quality of the original synthetic training set is increased by using the super-resolution techniques, such as Real-ESRGAN. Next, the MT-EmotiEffNet is fine-tuned on the new training set. The final prediction is a simple blending ensemble of pre-trained and fine-tuned MT-EmotiEffNets. Our average validation F1 score is 18% greater than the baseline convolutional neural network.

arxiv情報

著者 Andrey V. Savchenko
発行日 2022-07-21 14:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.9 パーマリンク