Multi-modal Expression Recognition with Ensemble Method


この論文は、第 5 回感情行動分析イン ザ ワイルド (ABAW) コンペティションの表現分類チャレンジへの提出物を示しています。
これらのビジュアルとオーディオのモーダル機能の組み合わせについて、2 つのテンポラル エンコーダーを使用して、データ内のテンポラル コンテキスト情報を調べます。
私たちのシステムは、検証セットで 0.45774 の平均 F1 スコアを達成しています。


This paper presents our submission to the Expression Classification Challenge of the fifth Affective Behavior Analysis in-the-wild (ABAW) Competition. In our method, multimodal feature combinations extracted by several different pre-trained models are applied to capture more effective emotional information. For these combinations of visual and audio modal features, we utilize two temporal encoders to explore the temporal contextual information in the data. In addition, we employ several ensemble strategies for different experimental settings to obtain the most accurate expression recognition results. Our system achieves the average F1 Score of 0.45774 on the validation set.


著者 Chuanhe Liu,Xinjie Zhang,Xiaolong Liu,Tenggan Zhang,Liyu Meng,Yuchen Liu,Yuanyuan Deng,Wenqiang Jiang
発行日 2023-03-17 15:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク