Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision

要約

この論文では、第 6 回 ABAW コンペティションの複合表現認識チャレンジに対する SUN チームの結果を紹介します。
複合表現認識のための新しい視聴覚手法を提案します。
私たちの方法は、感情確率レベルでモダリティを融合する感情認識モデルに依存しており、複合表現の予測に関する決定は事前定義されたルールに基づいています。
特に、私たちの方法はターゲットタスクに固有のトレーニングデータを使用しません。
したがって、問題はゼロショット分類タスクです。
このメソッドは、マルチコーパス トレーニングおよびクロスコーパス検証セットアップで評価されます。
私たちが提案した方法を使用すると、C-EXPR-DB テスト サブセットで 22.01% に相当する F1 スコア値が達成されました。
この課題からの我々の発見は、提案された方法が、人間の基本的かつ複合的な感情のコンテキストで視聴覚データに注釈を付けるためのインテリジェントなツールを開発するための基礎を形成できる可能性があることを示しています。

要約(オリジナル)

This paper presents the results of the SUN team for the Compound Expressions Recognition Challenge of the 6th ABAW Competition. We propose a novel audio-visual method for compound expression recognition. Our method relies on emotion recognition models that fuse modalities at the emotion probability level, while decisions regarding the prediction of compound expressions are based on predefined rules. Notably, our method does not use any training data specific to the target task. Thus, the problem is a zero-shot classification task. The method is evaluated in multi-corpus training and cross-corpus validation setups. Using our proposed method is achieved an F1-score value equals to 22.01% on the C-EXPR-DB test subset. Our findings from the challenge demonstrate that the proposed method can potentially form a basis for developing intelligent tools for annotating audio-visual data in the context of human’s basic and compound emotions.

arxiv情報

著者 Elena Ryumina,Maxim Markitantov,Dmitry Ryumin,Heysem Kaya,Alexey Karpov
発行日 2024-03-29 12:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク