Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models

要約

音声感情認識 (SER) に自己教師あり学習 (SSL) モデルを利用することは効果的であることが証明されていますが、言語間のシナリオを調査した研究は限られています。
この研究では、人間のパフォーマンスと SSL モデルの間の比較分析を紹介します。まず、レイヤーごとの分析と、単言語、クロスリンガル、および転移学習のコンテキストにおけるパラメーター効率の高い微調整戦略の探求を始めます。
さらに、モデルと人間の SER 能力を発話レベルとセグメント レベルの両方で比較します。
さらに、人による評価を通じて、言語を越えた SER に対する方言の影響を調査します。
私たちの調査結果は、適切な知識伝達により、モデルがターゲット言語に適応し、ネイティブスピーカーに匹敵するパフォーマンスを達成できることを明らかにしました。
また、言語的および準言語的背景を持たない個人の SER に対する方言の重要な影響も実証します。
さらに、人間とモデルはどちらも、さまざまな感情に応じて異なる行動を示します。
これらの結果は、SSL モデルの言語を超えた SER 機能についての新たな洞察を提供し、人間の感情認識との類似点と相違点の両方を強調しています。

要約(オリジナル)

Utilizing Self-Supervised Learning (SSL) models for Speech Emotion Recognition (SER) has proven effective, yet limited research has explored cross-lingual scenarios. This study presents a comparative analysis between human performance and SSL models, beginning with a layer-wise analysis and an exploration of parameter-efficient fine-tuning strategies in monolingual, cross-lingual, and transfer learning contexts. We further compare the SER ability of models and humans at both utterance- and segment-levels. Additionally, we investigate the impact of dialect on cross-lingual SER through human evaluation. Our findings reveal that models, with appropriate knowledge transfer, can adapt to the target language and achieve performance comparable to native speakers. We also demonstrate the significant effect of dialect on SER for individuals without prior linguistic and paralinguistic background. Moreover, both humans and models exhibit distinct behaviors across different emotions. These results offer new insights into the cross-lingual SER capabilities of SSL models, underscoring both their similarities to and differences from human emotion perception.

arxiv情報

著者 Zhichen Han,Tianqi Geng,Hui Feng,Jiahong Yuan,Korin Richmond,Yuanchao Li
発行日 2024-09-25 13:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS パーマリンク