An Empirical Study and Improvement for Speech Emotion Recognition

要約

タイトル:発話感情認識のための実証的研究と改善
要約:
– マルチモーダル発話感情認識は、音声とテキストから話者の感情を検出することを目的としています。
– 以前の研究は、異なるモダリティ情報をモデル化して融合させるために高度なネットワークを利用することに主に焦点を当てていましたが、融合戦略が感情認識に与える影響を無視していました。
– 本研究では、音声とテキストの融合方法がマルチモーダルタスクに対してどのように役立つかという、シンプルながら重要な問題を考慮しています。
– さらに、パースペクティブロスによって改善されたマルチモーダル発話感情認識モデルを提案しています。
– 実験結果から、我々の方法がIEMOCAPデータセットにおいて新たな最高レベルの結果を得たことが示されました。
– 深層分析は、改善されたモデルがどのように改善し、ベースラインよりも優れた性能を発揮できるかを説明しています。

要約(オリジナル)

Multimodal speech emotion recognition aims to detect speakers’ emotions from audio and text. Prior works mainly focus on exploiting advanced networks to model and fuse different modality information to facilitate performance, while neglecting the effect of different fusion strategies on emotion recognition. In this work, we consider a simple yet important problem: how to fuse audio and text modality information is more helpful for this multimodal task. Further, we propose a multimodal emotion recognition model improved by perspective loss. Empirical results show our method obtained new state-of-the-art results on the IEMOCAP dataset. The in-depth analysis explains why the improved model can achieve improvements and outperforms baselines.

arxiv情報

著者 Zhen Wu,Yizhe Lu,Xinyu Dai
発行日 2023-04-08 03:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク