要約
動的表情認識 (FER) データベースは、感情的なコンピューティングとアプリケーションに重要なデータ サポートを提供します。
ただし、ほとんどの FER データベースには、いくつかの基本的な相互に排他的な感情カテゴリの注釈が付けられており、ビデオなどの 1 つのモダリティのみが含まれています。
単調なラベルとモダリティは、人間の感情を正確に模倣し、現実世界でのアプリケーションを満たすことができません。
この論文では、野生の10,045のビデオオーディオクリップを備えた大規模なマルチモーダル複合感情データベースであるMAFWを提案します。
各クリップには、複合感情カテゴリと、クリップ内の被験者の感情的行動を説明するいくつかの文で注釈が付けられています。
複合感情アノテーションの場合、各クリップは、広く使用されている 11 の感情 (怒り、嫌悪、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望) の 1 つまたは複数に分類されます。
ラベルの高品質を確保するために、期待値の最大化 (EM) アルゴリズムによって信頼できない注釈を除外し、11 個の単一ラベルの感情カテゴリと 32 個のマルチラベルの感情カテゴリを取得します。
私たちの知る限りでは、MAFW は、複雑な感情の注釈と感情に関連するキャプションで注釈が付けられた、世界初のマルチモーダル データベースです。
さらに、異なる感情やモダリティ間の表情変化の関係を利用して、複合感情を認識するための新しい Transformer ベースの表情スニペット機能学習方法も提案します。
MAFWデータベースでの広範な実験は、ユニモーダルFERとマルチモーダルFERの両方について、提案された方法が他の最先端の方法よりも優れていることを示しています。
当社の MAFW データベースは、https://mafw-database.github.io/MAFW から公開されています。
要約(オリジナル)
Dynamic facial expression recognition (FER) databases provide important data support for affective computing and applications. However, most FER databases are annotated with several basic mutually exclusive emotional categories and contain only one modality, e.g., videos. The monotonous labels and modality cannot accurately imitate human emotions and fulfill applications in the real world. In this paper, we propose MAFW, a large-scale multi-modal compound affective database with 10,045 video-audio clips in the wild. Each clip is annotated with a compound emotional category and a couple of sentences that describe the subjects’ affective behaviors in the clip. For the compound emotion annotation, each clip is categorized into one or more of the 11 widely-used emotions, i.e., anger, disgust, fear, happiness, neutral, sadness, surprise, contempt, anxiety, helplessness, and disappointment. To ensure high quality of the labels, we filter out the unreliable annotations by an Expectation Maximization (EM) algorithm, and then obtain 11 single-label emotion categories and 32 multi-label emotion categories. To the best of our knowledge, MAFW is the first in-the-wild multi-modal database annotated with compound emotion annotations and emotion-related captions. Additionally, we also propose a novel Transformer-based expression snippet feature learning method to recognize the compound emotions leveraging the expression-change relations among different emotions and modalities. Extensive experiments on MAFW database show the advantages of the proposed method over other state-of-the-art methods for both uni- and multi-modal FER. Our MAFW database is publicly available from https://mafw-database.github.io/MAFW.
arxiv情報
著者 | Yuanyuan Liu,Wei Dai,Chuanxu Feng,Wenbin Wang,Guanghao Yin,Jiabei Zeng,Shiguang Shan |
発行日 | 2022-08-01 13:34:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google