Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques

要約

テキスト データは一般に、音声感情認識 (SER) のパフォーマンスと信頼性を向上させるための主な入力として利用されます。
しかし、ほとんどの研究では人間が書き起こしたテキストに依存しているため、実用的な SER システムの開発が妨げられ、研究室での研究と、自動音声認識 (ASR) がテキスト ソースとして機能する現実世界のシナリオとの間にギャップが生じています。
したがって、この調査では、よく知られたコーパス (IEMOCAP、CMU-MOSI、MSP-Podcast) でさまざまな単語誤り率 (WER) を持つ ASR トランスクリプトを使用して SER パフォーマンスのベンチマークを行います。
私たちの評価には、テキストのみの SER と、多様な融合技術を組み合わせたバイモーダル SER が含まれており、現在の SER 研究が直面している新しい発見と課題を明らかにする包括的な分析を目指しています。
さらに、ASR エラー修正とモダリティゲート型融合を統合した統合された ASR エラー耐性フレームワークを提案し、最高のパフォーマンスを誇る ASR トランスクリプトと比較して、より低い WER とより高い SER 結果を達成します。
この研究は、特に現実世界のアプリケーションにおいて、ASR 支援による SER に関する洞察を提供することが期待されています。

要約(オリジナル)

Text data is commonly utilized as a primary input to enhance Speech Emotion Recognition (SER) performance and reliability. However, the reliance on human-transcribed text in most studies impedes the development of practical SER systems, creating a gap between in-lab research and real-world scenarios where Automatic Speech Recognition (ASR) serves as the text source. Hence, this study benchmarks SER performance using ASR transcripts with varying Word Error Rates (WERs) on well-known corpora: IEMOCAP, CMU-MOSI, and MSP-Podcast. Our evaluation includes text-only and bimodal SER with diverse fusion techniques, aiming for a comprehensive analysis that uncovers novel findings and challenges faced by current SER research. Additionally, we propose a unified ASR error-robust framework integrating ASR error correction and modality-gated fusion, achieving lower WER and higher SER results compared to the best-performing ASR transcript. This research is expected to provide insights into SER with ASR assistance, especially for real-world applications.

arxiv情報

著者 Yuanchao Li,Peter Bell,Catherine Lai
発行日 2024-06-12 15:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク