要約
この論文は、第 5 回感情行動分析イン ザ ワイルド (ABAW) コンペティションの表現分類チャレンジへの提出物を示しています。
私たちの方法では、いくつかの異なる事前トレーニング済みモデルによって抽出されたマルチモーダル機能の組み合わせを適用して、より効果的な感情情報を取得します。
これらのビジュアルとオーディオのモーダル機能の組み合わせについて、2 つのテンポラル エンコーダーを使用して、データ内のテンポラル コンテキスト情報を調べます。
さらに、最も正確な発現認識結果を得るために、さまざまな実験設定に対していくつかのアンサンブル戦略を採用しています。
私たちのシステムは、検証セットで 0.45774 の平均 F1 スコアを達成しています。
要約(オリジナル)
This paper presents our submission to the Expression Classification Challenge of the fifth Affective Behavior Analysis in-the-wild (ABAW) Competition. In our method, multimodal feature combinations extracted by several different pre-trained models are applied to capture more effective emotional information. For these combinations of visual and audio modal features, we utilize two temporal encoders to explore the temporal contextual information in the data. In addition, we employ several ensemble strategies for different experimental settings to obtain the most accurate expression recognition results. Our system achieves the average F1 Score of 0.45774 on the validation set.
arxiv情報
著者 | Chuanhe Liu,Xinjie Zhang,Xiaolong Liu,Tenggan Zhang,Liyu Meng,Yuchen Liu,Yuanyuan Deng,Wenqiang Jiang |
発行日 | 2023-03-17 15:03:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google