要約
Contrastive Language-Audio Pretraining (CLAP) は最近、さまざまな分野で目覚ましい成功を収めています。
この論文では、音声感情認識 (SER) のための効率的な性別属性強化 CLAP モデルの一種である GEmo-CLAP を提案します。
具体的には、まず、さまざまな自己教師あり学習ベースの事前トレーニング済みモデルを利用して、SER 用 Emo-CLAP と呼ばれる効果的な感情 CLAP モデルを構築します。
次に、音声感情モデリングにおける性別属性の重要性を考慮して、音声信号の感情と性別情報を統合し、より合理的な目的を形成するための 2 つの GEmo-CLAP アプローチをさらに提案します。
IEMOCAP コーパスに対して行われた広範な実験により、私たちが提案する 2 つの GEmo-CLAP アプローチが、さまざまな事前トレーニング済みモデルを使用したベースライン Emo-CLAP よりも一貫して優れていると同時に、他の最先端の方法と比較して優れた認識性能も達成していることが実証されています。
要約(オリジナル)
Contrastive Language-Audio Pretraining (CLAP) has recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced CLAP model for speech emotion recognition (SER). Specifically, we first build an effective emotion CLAP model termed Emo-CLAP for SER, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments conducted on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods.
arxiv情報
著者 | Yu Pan,Yanni Hu,Yuguang Yang,Jixun Yao,Wen Fei,Lei Ma,Heng Lu |
発行日 | 2023-06-13 15:28:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google