要約
対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分野で目覚ましい成功を収めています。
本稿では、音声感情認識のための性別属性強化対照言語音声事前学習(CLAP)法の一種であるGEmo-CLAPを提案する。
具体的には、さまざまな自己教師付き事前トレーニング済みモデルを利用して、新しい感情 CLAP モデル (Emo-CLAP) が最初に構築されます。
第二に、音声感情モデリングにおける性別属性の重要性を考慮して、感情を統合するためにソフトラベルベースのGEmo-CLAP(SL-GEmo-CLAP)とマルチタスク学習ベースのGEmo-CLAP(ML-GEmo-CLAP)がさらに提案されます。
音声信号の性別情報など、より合理的な目的を形成します。
IEMOCAP に関する広範な実験により、私たちが提案した 2 つの GEmo-CLAP モデルが、さまざまな事前トレーニング済みモデルを使用したベースライン Emo-CLAP を常に上回っており、同時に、最近の最先端の方法と比較して最高の認識パフォーマンスを達成していることが示されています。
注目すべきことに、提案された WavLM ベースの ML-GEmo-CLAP は、80.16\% という最高の UAR と 82.06\% の WAR を取得しています。
要約(オリジナル)
Contrastive learning based cross-modality pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for speech emotion recognition. Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing various self-supervised pre-trained models. Second, considering the importance of gender attribute in speech emotion modeling, the soft label based GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving the best recognition performance compared with recent state-of-the-art methods. Noticeably, the proposed WavLM-based ML-GEmo-CLAP obtains the best UAR of 80.16\% and WAR of 82.06\%.
arxiv情報
著者 | Yu Pan,Lei Ma |
発行日 | 2023-07-19 04:56:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google