Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models

要約

音声感情認識(SER)のための自己監視学習(SSL)モデルを利用して、効果的であるが、限られた研究は横断的なシナリオを調査していることが証明されています。
この研究では、人間のパフォーマンスとSSLモデルの比較分析を提示します。レイヤーごとの分析と、単一言語、横断的、および転送学習コンテキストにおけるパラメーター効率の高い微調整戦略の調査から始めます。
さらに、発話レベルとセグメントレベルの両方でモデルと人間のSER能力を比較します。
さらに、人間の評価を通じて言語間Serに与える方言の影響を調査します。
私たちの調査結果は、モデルが適切な知識転送を伴う、ターゲット言語に適応し、ネイティブスピーカーに匹敵するパフォーマンスを実現できることを明らかにしています。
また、以前の言語的および麻痺性背景を持たない個人のためのSERに対する方言の重要な効果を示します。
さらに、人間とモデルの両方が、さまざまな感情にわたって異なる行動を示します。
これらの結果は、SSLモデルの横断的なSER能力に関する新しい洞察を提供し、人間の感情知覚との類似性と違いの両方を強調しています。

要約(オリジナル)

Utilizing Self-Supervised Learning (SSL) models for Speech Emotion Recognition (SER) has proven effective, yet limited research has explored cross-lingual scenarios. This study presents a comparative analysis between human performance and SSL models, beginning with a layer-wise analysis and an exploration of parameter-efficient fine-tuning strategies in monolingual, cross-lingual, and transfer learning contexts. We further compare the SER ability of models and humans at both utterance- and segment-levels. Additionally, we investigate the impact of dialect on cross-lingual SER through human evaluation. Our findings reveal that models, with appropriate knowledge transfer, can adapt to the target language and achieve performance comparable to native speakers. We also demonstrate the significant effect of dialect on SER for individuals without prior linguistic and paralinguistic background. Moreover, both humans and models exhibit distinct behaviors across different emotions. These results offer new insights into the cross-lingual SER capabilities of SSL models, underscoring both their similarities to and differences from human emotion perception.

arxiv情報

著者 Zhichen Han,Tianqi Geng,Hui Feng,Jiahong Yuan,Korin Richmond,Yuanchao Li
発行日 2025-04-30 13:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS パーマリンク