How Paralingual are Paralinguistic Representations? A Case Study in Speech Emotion Recognition

要約

音声感情認識(SER)の分野では、事前学習モデル(PTM)によって大きな進歩がもたらされた。SERは、ヒューマンコンピュータインタラクションからヘルスケアまで幅広いアプリケーションを持つ分野である。最近の研究では、様々なPTM表現をSERの下流モデルの入力特徴として活用しています。パラ言語タスク用に特別に訓練されたPTMは、SERにおいて最先端の性能(SOTA)を得ている。しかし、このようなPTMは多言語環境におけるSERでは評価されておらず、英語でのみ実験されている。そこで、我々はこのギャップを埋めるため、5つのPTM(TRILLsson, wav2vec2, XLS-R, x-vector, Whisper)の包括的な比較研究を行い、パラリンガルPTM(TRILLsson)のSERに対する有効性を多言語で評価した。TRILLssonによる表現は、すべてのPTMの中で最高の性能を達成した。これは、TRILLssonがより良いSERのために、音声データから様々なパラ言語的特徴を効果的に捉えることができることを示している。また、TRILLsson表現を用いたダウンストリームモデルが、様々な多言語データセットにおいてSOTAの精度を達成することも示す。

要約(オリジナル)

Pre-trained Models (PTMs) have facilitated substantial progress in the field of Speech Emotion Recognition (SER). SER is an area with applications ranging from HumanComputer Interaction to Healthcare. Recent studies have leveraged various PTM representations as input features for downstream models for SER. PTM specifically pre-trained for paralinguistic tasks have obtained state-of-the-art (SOTA) performance for SER. However, such PTM haven’t been evaluated for SER in multilingual settings and experimented only with English. So, we fill this gap, by performing a comprehensive comparative study of five PTMs (TRILLsson, wav2vec2, XLS-R, x-vector, Whisper) for assessing the effectiveness of paralingual PTM (TRILLsson) for SER across multiple languages. Representations from TRILLsson achieved the best performance among all the PTMs. This demonstrates that TRILLsson is able to effectively capture the various paralinguistic features from speech data for better SER. We also show that downstream models using TRILLsson representations achieve SOTA performance in terms of accuracy across various multi-lingual datasets.

arxiv情報

著者 Orchid Chetia Phukan,Gautam Siddharth Kashyap,Arun Balaji Buduru,Rajesh Sharma
発行日 2024-02-02 17:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク