A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion

要約

音声感情認識 (SER) は困難なタスクです。
この論文では、MELD データセット上の感情認識パフォーマンスを向上させることを目的としたモダリティ変換の概念を紹介します。
私たちは 2 つの実験を通じてアプローチを評価します。1 つは自動音声認識 (ASR) システムを使用する Modality-Conversion という名前の方法で、次にテキスト分類器が続きます。
次に、完全な ASR 出力を仮定し、SER に対するモダリティ変換の影響を調査します。この方法は Modality-Conversion++ と呼ばれます。
私たちの調査結果は、最初の方法は実質的な結果をもたらし、2 番目の方法は MELD データセットの SER 重み付け F1 (WF1) スコアの点で最先端 (SOTA) 音声ベースのアプローチよりも優れていることを示しています。
この研究は、代替モダリティで実行できるタスクのモダリティ変換の可能性を強調しています。

要約(オリジナル)

Speech Emotion Recognition (SER) is a challenging task. In this paper, we introduce a modality conversion concept aimed at enhancing emotion recognition performance on the MELD dataset. We assess our approach through two experiments: first, a method named Modality-Conversion that employs automatic speech recognition (ASR) systems, followed by a text classifier; second, we assume perfect ASR output and investigate the impact of modality conversion on SER, this method is called Modality-Conversion++. Our findings indicate that the first method yields substantial results, while the second method outperforms state-of-the-art (SOTA) speech-based approaches in terms of SER weighted-F1 (WF1) score on the MELD dataset. This research highlights the potential of modality conversion for tasks that can be conducted in alternative modalities.

arxiv情報

著者 Zeinab Sadat Taghavi,Ali Satvaty,Hossein Sameti
発行日 2023-07-21 13:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク