GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition


対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さまざまな分野で目覚ましい成功を収めています。
具体的には、事前にトレーニングされた WavLM モデルと RoBERTa モデルを利用して、新しい感情 CLAP モデル (Emo-CLAP) が最初に構築されます。
第二に、音声感情モデリングにおける性別属性の重要性を考慮して、2 つの新しいソフトラベルベースの GEmo-CLAP (SL-GEmo-CLAP) モデルとマルチタスク学習ベースの GEmo-CLAP (ML-GEmo-CLAP) モデルがさらに提案されています。
IEMOCAP に関する広範な実験により、私たちが提案した 2 つの GEmo-CLAP モデルがベースライン Emo-CLAP を常に上回り、同時に最近の最先端の方法と比較して最高の認識性能を達成していることが示されています。
注目すべきことに、提案された SL-GEmo-CLAP モデルは、81.43\% という最高の UAR と 83.16\% の WAR を達成しており、他の最先端の SER 手法よりも少なくとも 3\% 優れたパフォーマンスを示しています。


Contrastive learning based cross-modality pretraining approaches have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for speech emotion recognition. Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing pre-trained WavLM and RoBERTa models. Second, given the significance of the gender attribute in speech emotion modeling, two novel soft label based GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) models are further proposed to integrate emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the baseline Emo-CLAP, while also achieving the best recognition performance compared with recent state-of-the-art methods. Noticeably, the proposed SL-GEmo-CLAP model achieves the best UAR of 81.43\% and WAR of 83.16\% which performs better than other state-of-the-art SER methods by at least 3\%.


著者 Yu Pan,Yanni Hu,Yuguang Yang,Jixun Yao,Wen Fei,Lei Ma,Heng Lu
発行日 2023-08-08 03:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク