Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition

要約

音声感情認識 (SER) は、心の知能指数を取得し、音声の文脈上の意味を理解するために不可欠です。
子音と母音 (CV) の音素境界のバリエーションは、言語的な手がかりで音響コンテキストを豊かにし、SER に影響を与える可能性があります。
実際には、音声の感情は、所定の期間の音響セグメントにわたる単一のラベルとして扱われます。
ただし、音声内の音声境界は離散的なイベントではないため、知覚された感情状態も、潜在的に連続する時間窓にわたって分散される必要があります。
この研究では、注意ベースのアプローチを使用して、SER のローカル マーカーに対する音響コンテキストと電話境界の影響を調査します。
音声感情理解に分散アプローチを使用する利点は、クロスコーパス分析実験の結果によって裏付けられています。
電話と単語を基本周波数とともに注意ベクトルにマッピングして、重複する分布を観察し、それによって音響コンテキストと感情の関係を観察する実験。
この研究は、心理言語理論の研究と SER の計算モデリングの橋渡しをすることを目的としています。

要約(オリジナル)

Speech emotion recognition (SER) is vital for obtaining emotional intelligence and understanding the contextual meaning of speech. Variations of consonant-vowel (CV) phonemic boundaries can enrich acoustic context with linguistic cues, which impacts SER. In practice, speech emotions are treated as single labels over an acoustic segment for a given time duration. However, phone boundaries within speech are not discrete events, therefore the perceived emotion state should also be distributed over potentially continuous time-windows. This research explores the implication of acoustic context and phone boundaries on local markers for SER using an attention-based approach. The benefits of using a distributed approach to speech emotion understanding are supported by the results of cross-corpora analysis experiments. Experiments where phones and words are mapped to the attention vectors along with the fundamental frequency to observe the overlapping distributions and thereby the relationship between acoustic context and emotion. This work aims to bridge psycholinguistic theory research with computational modelling for SER.

arxiv情報

著者 Anna Ollerenshaw,Md Asif Jalal,Rosanna Milner,Thomas Hain
発行日 2023-06-30 09:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク