Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages

要約

従来の音声感情認識 (SER) タスクでは、特定の言語の分類子が、同じ言語の既存のデータセットでトレーニングされます。
ただし、ある言語のトレーニング データが存在しない場合は、代わりに他の言語のデータを使用できます。
私たちは、アムハラ語、英語、ドイツ語、URDU を使用して、クロスリンガルおよび多言語 SER を実験しています。
アムハラ語については、公開されている独自のアムハラ語音声感情データセット (ASED) を使用します。
英語、ドイツ語、ウルドゥー語については、既存の RAVDESS、EMO-DB、URDU データセットを使用します。
以前の研究に従って、すべてのデータセットのラベルを正と負の 2 つのクラスのみにマッピングしました。
したがって、さまざまな言語でのパフォーマンスを直接比較したり、トレーニングやテストのために言語を組み合わせたりできます。
実験 1 では、AlexNet、VGGE (VGG の提案された変種)、および ResNet50 という 3 つの分類器を使用して、単一言語 SER トライアルが実行されました。
3 つのモデルの平均結果は ASED と RAVDESS で非常に似ており、アムハラ語と英語の SER が同等に難しいことを示唆しています。
同様に、ドイツ語の SER はより難しく、ウルドゥー語の SER は簡単です。
実験 2 では、アムハラ語<->ドイツ語、アムハラ語<->英語、アムハラ語<->ウルドゥー語のペアごとに、ある言語でトレーニングし、別の言語でテストしました。
アムハラ語をターゲットとした結果は、英語またはドイツ語をソースとして使用すると最良の結果が得られることを示唆しました。
実験 3 では、いくつかの非アムハラ語でトレーニングし、次にアムハラ語でテストしました。
得られた最高の精度は、実験 2 の最高の精度よりも数パーセント高く、トレーニングに 2 つまたは 3 つの非アムハラ語を使用した方が、1 つの非アムハラ語のみを使用した場合よりも良い結果が得られることを示唆しています。
全体として、この結果は、言語のリソースが不足している場合に、クロスリンガルおよび多言語トレーニングが SER 分類器をトレーニングするための効果的な戦略となり得ることを示唆しています。

要約(オリジナル)

In a conventional Speech emotion recognition (SER) task, a classifier for a given language is trained on a pre-existing dataset for that same language. However, where training data for a language does not exist, data from other languages can be used instead. We experiment with cross-lingual and multilingual SER, working with Amharic, English, German and URDU. For Amharic, we use our own publicly-available Amharic Speech Emotion Dataset (ASED). For English, German and Urdu we use the existing RAVDESS, EMO-DB and URDU datasets. We followed previous research in mapping labels for all datasets to just two classes, positive and negative. Thus we can compare performance on different languages directly, and combine languages for training and testing. In Experiment 1, monolingual SER trials were carried out using three classifiers, AlexNet, VGGE (a proposed variant of VGG), and ResNet50. Results averaged for the three models were very similar for ASED and RAVDESS, suggesting that Amharic and English SER are equally difficult. Similarly, German SER is more difficult, and Urdu SER is easier. In Experiment 2, we trained on one language and tested on another, in both directions for each pair: Amharic<->German, Amharic<->English, and Amharic<->Urdu. Results with Amharic as target suggested that using English or German as source will give the best result. In Experiment 3, we trained on several non-Amharic languages and then tested on Amharic. The best accuracy obtained was several percent greater than the best accuracy in Experiment 2, suggesting that a better result can be obtained when using two or three non-Amharic languages for training than when using just one non-Amharic language. Overall, the results suggest that cross-lingual and multilingual training can be an effective strategy for training a SER classifier when resources for a language are scarce.

arxiv情報

著者 Ephrem Afele Retta,Richard Sutcliffe,Jabar Mahmood,Michael Abebe Berwo,Eiad Almekhlafi,Sajjad Ahmed Khan,Shehzad Ashraf Chaudhry,Mustafa Mhamed,Jun Feng
発行日 2023-07-20 12:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS パーマリンク