GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約

対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成功を収めていますが、音声感情認識 (SER) におけるメリットについての研究は限られています。
本稿では、SER向けの性別属性強化対照言語音声事前学習(CLAP)法の一種であるGEmo-CLAPを提案する。
具体的には、まず、事前トレーニングされたテキストとオーディオのエンコーダーを使用して、SER 用の効果的な感情 CLAP (Emo-CLAP) を構築します。
第二に、SER における性別情報の重要性を考慮して、性別情報を組み込むために、2 つの新しいマルチタスク学習ベースの GEmo-CLAP (ML-GEmo-CLAP) モデルとソフトラベル ベースの GEmo-CLAP (SL-GEmo-CLAP) モデルがさらに提案されます。
音声信号を調整し、より合理的な目的を形成します。
IEMOCAP の実験では、私たちが提案した 2 つの GEmo-CLAP が、さまざまな事前トレーニング済みモデルを使用した Emo-CLAP よりも一貫して優れていることが示されています。
注目すべきことに、提案された WavLM ベースの SL-GEmo-CLAP は、81.43\% という最高の UAR と 83.16\% の WAR を取得し、最先端の SER 方法よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Contrastive cross-modality pretraining has recently exhibited impressive success in diverse fields, whereas there is limited research on their merits in speech emotion recognition (SER). In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for SER. Specifically, we first construct an effective emotion CLAP (Emo-CLAP) for SER, using pre-trained text and audio encoders. Second, given the significance of gender information in SER, two novel multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) and soft label based GEmo-CLAP (SL-GEmo-CLAP) models are further proposed to incorporate gender information of speech signals, forming more reasonable objectives. Experiments on IEMOCAP indicate that our proposed two GEmo-CLAPs consistently outperform Emo-CLAP with different pre-trained models. Remarkably, the proposed WavLM-based SL-GEmo-CLAP obtains the best UAR of 81.43\% and WAR of 83.16\%, which performs better than state-of-the-art SER methods.

arxiv情報

著者 Yu Pan,Yanni Hu,Yuguang Yang,Wen Fei,Jixun Yao,Heng Lu,Lei Ma,Jianjun Zhao
発行日 2023-11-24 15:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク