GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約

対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さまざまな分野で目覚ましい成功を収めています。
本稿では、音声感情認識のための性別属性強化対照言語音声事前学習(CLAP)法の一種であるGEmo-CLAPを提案する。
具体的には、事前にトレーニングされた WavLM モデルと RoBERTa モデルを利用して、新しい感情 CLAP モデル (Emo-CLAP) が最初に構築されます。
第二に、音声感情モデリングにおける性別属性の重要性を考慮して、2 つの新しいソフトラベルベースの GEmo-CLAP (SL-GEmo-CLAP) モデルとマルチタスク学習ベースの GEmo-CLAP (ML-GEmo-CLAP) モデルがさらに提案されています。
音声信号の感情と性別情報を統合し、より合理的な目的を形成します。
IEMOCAP に関する広範な実験により、私たちが提案した 2 つの GEmo-CLAP モデルがベースライン Emo-CLAP を常に上回り、同時に最近の最先端の方法と比較して最高の認識性能を達成していることが示されています。
注目すべきことに、提案された SL-GEmo-CLAP モデルは、81.43\% という最高の UAR と 83.16\% の WAR を達成しており、他の最先端の SER 手法よりも少なくとも 3\% 優れたパフォーマンスを示しています。

要約(オリジナル)

Contrastive learning based cross-modality pretraining approaches have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for speech emotion recognition. Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing pre-trained WavLM and RoBERTa models. Second, given the significance of the gender attribute in speech emotion modeling, two novel soft label based GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) models are further proposed to integrate emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the baseline Emo-CLAP, while also achieving the best recognition performance compared with recent state-of-the-art methods. Noticeably, the proposed SL-GEmo-CLAP model achieves the best UAR of 81.43\% and WAR of 83.16\% which performs better than other state-of-the-art SER methods by at least 3\%.

arxiv情報

著者 Yu Pan,Yanni Hu,Yuguang Yang,Jixun Yao,Wen Fei,Lei Ma,Heng Lu
発行日 2023-08-08 03:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク