Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?

要約

事前トレーニング済みモデル (PTM) からの表現が利用できるようになったことで、音声感情認識 (SER) の大幅な進歩が促進されました。
特に、パラ言語音声処理用にトレーニングされた PTM からの表現は、SER に対して最先端 (SOTA) のパフォーマンスを示しています。
ただし、このようなパラ言語 PTM 表現は、英語以外の言語環境における SER について評価されていません。
また、パラ言語的な PTM 表現は、SER の SUPERB、EMO-SUPERB、ML-SUPERB などのベンチマークでは調査されていません。
このため、複数の言語で SER に対するパラ言語 PTM 表現の有効性を利用することが困難になります。
このギャップを埋めるために、5 つの SOTA PTM 表現の包括的な比較研究を実行します。
私たちの結果は、パラ言語 PTM (TRILLsson) 表現が最高のパフォーマンスを発揮することを示しており、このパフォーマンスは他の PTM 表現よりもピッチ、トーン、その他の音声特性をより効果的に捕捉する効果に起因すると考えられます。

要約(オリジナル)

Availability of representations from pre-trained models (PTMs) have facilitated substantial progress in speech emotion recognition (SER). Particularly, representations from PTM trained for paralinguistic speech processing have shown state-of-the-art (SOTA) performance for SER. However, such paralinguistic PTM representations haven’t been evaluated for SER in linguistic environments other than English. Also, paralinguistic PTM representations haven’t been investigated in benchmarks such as SUPERB, EMO-SUPERB, ML-SUPERB for SER. This makes it difficult to access the efficacy of paralinguistic PTM representations for SER in multiple languages. To fill this gap, we perform a comprehensive comparative study of five SOTA PTM representations. Our results shows that paralinguistic PTM (TRILLsson) representations performs the best and this performance can be attributed to its effectiveness in capturing pitch, tone and other speech characteristics more effectively than other PTM representations.

arxiv情報

著者 Orchid Chetia Phukan,Gautam Siddharth Kashyap,Arun Balaji Buduru,Rajesh Sharma
発行日 2024-07-11 09:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク