MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction

要約

音声感情認識 (SER) における一般的なアプローチには、音声情報とテキスト情報の両方を統合して話者の感情を包括的に識別することが含まれます。テキストは一般に自動音声認識 (ASR) によって取得されます。
このアプローチの本質的な問題は、テキスト モダリティからの ASR エラーによって SER のパフォーマンスが悪化する可能性があることです。
以前の研究では、補助的な ASR 誤り検出タスクを使用して、ASR 仮説の各単語の重みを適応的に割り当てることが提案されています。
ただし、このアプローチはテキスト内の意味情報の一貫性に対処していないため、改善の可能性は限られています。
さらに、異なるモダリティの固有の不均一性により、それらの表現間の分布ギャップが生じ、それらの融合が困難になります。
したがって、この論文では、ASR テキストの意味的一貫性を強化するために、ASR エラー検出 (AED) と ASR エラー修正 (AEC) という 2 つの補助タスクを組み込み、さらに新しいマルチモーダル フュージョン (MF) 学習方法を導入します。
モダリティ全体で表現を共有します。
私たちはこの方法を MF-AED-AEC と呼びます。
実験結果は、MF-AED-AEC がベースライン モデルよりも 4.1\% のマージンで大幅に優れていることを示しています。

要約(オリジナル)

The prevalent approach in speech emotion recognition (SER) involves integrating both audio and textual information to comprehensively identify the speaker’s emotion, with the text generally obtained through automatic speech recognition (ASR). An essential issue of this approach is that ASR errors from the text modality can worsen the performance of SER. Previous studies have proposed using an auxiliary ASR error detection task to adaptively assign weights of each word in ASR hypotheses. However, this approach has limited improvement potential because it does not address the coherence of semantic information in the text. Additionally, the inherent heterogeneity of different modalities leads to distribution gaps between their representations, making their fusion challenging. Therefore, in this paper, we incorporate two auxiliary tasks, ASR error detection (AED) and ASR error correction (AEC), to enhance the semantic coherence of ASR text, and further introduce a novel multi-modal fusion (MF) method to learn shared representations across modalities. We refer to our method as MF-AED-AEC. Experimental results indicate that MF-AED-AEC significantly outperforms the baseline model by a margin of 4.1\%.

arxiv情報

著者 Jiajun He,Xiaohan Shi,Xingfeng Li,Tomoki Toda
発行日 2024-01-24 06:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク