ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition

要約

音声感情認識 (SER) では、音声信号固有の変動性に対処するために、テキスト データが音声信号と一緒に使用されることがよくあります。
しかし、ほとんどの研究では人間による注釈付きテキストに依存しているため、実用的な SER システムの開発が妨げられています。
この課題を克服するために、感情コーパスに対する自動音声認識 (ASR) のパフォーマンスを分析し、ASR トランスクリプト内の単語エラーと信頼度スコアの分布を調べることで、感情が ASR にどのように影響するかについての洞察を得ることで、感情的な音声に対して自動音声認識 (ASR) がどのように機能するかを調査します。
汎用性を確保するために、Kaldi ASR、wav2vec、Conformer、および Whisper という 4 つの ASR システムと、IEMOCAP、MOSI、および MELD の 3 つのコーパスを利用しています。
さらに、単語エラー率が増加している ASR トランスクリプトに対してテキストベースの SER を実行し、ASR が SER にどのような影響を与えるかを調査します。
この研究の目的は、ASR の感情的な発話への適応と現実世界での SER の使用を促進するために、ASR と SER の関係と相互影響を明らかにすることです。

要約(オリジナル)

In Speech Emotion Recognition (SER), textual data is often used alongside audio signals to address their inherent variability. However, the reliance on human annotated text in most research hinders the development of practical SER systems. To overcome this challenge, we investigate how Automatic Speech Recognition (ASR) performs on emotional speech by analyzing the ASR performance on emotion corpora and examining the distribution of word errors and confidence scores in ASR transcripts to gain insight into how emotion affects ASR. We utilize four ASR systems, namely Kaldi ASR, wav2vec, Conformer, and Whisper, and three corpora: IEMOCAP, MOSI, and MELD to ensure generalizability. Additionally, we conduct text-based SER on ASR transcripts with increasing word error rates to investigate how ASR affects SER. The objective of this study is to uncover the relationship and mutual impact of ASR and SER, in order to facilitate ASR adaptation to emotional speech and the use of SER in real world.

arxiv情報

著者 Yuanchao Li,Zeyu Zhao,Ondrej Klejch,Peter Bell,Catherine Lai
発行日 2023-05-25 13:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク