Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition

要約

音声感情認識は、人間とコンピューターの対話において重要な役割を果たします。
しかし、ほとんどの音声感情認識研究は英語を話す成人に偏っており、言語や年齢層が異なる他の人口統計グループへの適用が妨げられています。
この研究では、英語、北京語、広東語の 3 つの異なる言語にわたる感情認識の伝達可能性を分析します。
そして2つの異なる年齢層 – 大人と高齢者。
この実験を実施するために、成人と高齢者向けの英語と北京語の音声感情ベンチマークである BiMotion と、広東語の音声感情データセットである YueMotion を開発しました。
この研究は、言語や年齢層が異なると特定の音声特徴が必要となるため、言語を超えた推論は不適切な方法であると結論付けています。
ただし、言語間の距離が言語間伝達可能性に大きな影響を与えるため、グループ間データの拡張はモデルを正規化するのに依然として有益です。
https://github.com/HLTCHKUST/elderly_ser でコードを公開リリースします。

要約(オリジナル)

Speech emotion recognition plays a crucial role in human-computer interactions. However, most speech emotion recognition research is biased toward English-speaking adults, which hinders its applicability to other demographic groups in different languages and age groups. In this work, we analyze the transferability of emotion recognition across three different languages–English, Mandarin Chinese, and Cantonese; and 2 different age groups–adults and the elderly. To conduct the experiment, we develop an English-Mandarin speech emotion benchmark for adults and the elderly, BiMotion, and a Cantonese speech emotion dataset, YueMotion. This study concludes that different language and age groups require specific speech features, thus making cross-lingual inference an unsuitable method. However, cross-group data augmentation is still beneficial to regularize the model, with linguistic distance being a significant influence on cross-lingual transferability. We release publicly release our code at https://github.com/HLTCHKUST/elderly_ser.

arxiv情報

著者 Samuel Cahyawijaya,Holy Lovenia,Willy Chung,Rita Frieske,Zihan Liu,Pascale Fung
発行日 2023-06-26 08:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク