要約
マルチモーダル感情認識は、さまざまなモダリティを融合して人間の感情を予測することを目的とした挑戦的な研究分野です。
ただし、注意メカニズムに基づく既存のモデルのほとんどは、感情的に関連する部分を自分で学習するのが困難です。
この問題を解決するために、事前訓練されたモデルの共注意ベースの融合に外部の感情関連の知識を組み込むことを提案します。
この知識を効果的に組み込むために、感情関連の知識を使用して事前分布が推定されるベイジアン注意モジュール (BAM) を使用して共注意モデルを強化します。
IEMOCAP データセットの実験結果は、提案されたアプローチがいくつかの最先端のアプローチよりも少なくとも 0.7% の重み付けされていない精度 (UA) で優れていることを示しています。
要約(オリジナル)
Multimodal emotion recognition is a challenging research area that aims to fuse different modalities to predict human emotion. However, most existing models that are based on attention mechanisms have difficulty in learning emotionally relevant parts on their own. To solve this problem, we propose to incorporate external emotion-related knowledge in the co-attention based fusion of pre-trained models. To effectively incorporate this knowledge, we enhance the co-attention model with a Bayesian attention module (BAM) where a prior distribution is estimated using the emotion-related knowledge. Experimental results on the IEMOCAP dataset show that the proposed approach can outperform several state-of-the-art approaches by at least 0.7% unweighted accuracy (UA).
arxiv情報
著者 | Zihan Zhao,Yu Wang,Yanfeng Wang |
発行日 | 2023-03-07 07:53:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google