要約
対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成功を収めています。
この論文では、音声感情認識のための効率的な性別属性強化対照言語音声事前学習 (CLAP) モデルの一種である GEmo-CLAP を提案します。
具体的には、まず、さまざまな自己教師あり学習ベースの事前学習モデルを利用して、感情認識のための効果的な感情CLAPモデルEmo-CLAPを構築します。
次に、音声感情モデリングにおける性別属性の重要性を考慮して、音声信号の感情と性別情報を統合し、より合理的な目的を形成するための 2 つの GEmo-CLAP アプローチをさらに提案します。
IEMOCAP コーパスに関する広範な実験により、私たちが提案する 2 つの GEmo-CLAP アプローチが、さまざまな事前トレーニング済みモデルを使用したベースライン Emo-CLAP よりも一貫して優れていると同時に、他の最先端の方法と比較して優れた認識性能も達成していることが実証されています。
要約(オリジナル)
Contrastive learning based pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced contrastive language-audio pretraining (CLAP) model for speech emotion recognition. To be specific, we first build an effective emotion CLAP model Emo-CLAP for emotion recognition, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods.
arxiv情報
著者 | Yu Pan,Yanni Hu,Yuguang Yang,Jixun Yao,Wen Fei,Lei Ma,Heng Lu |
発行日 | 2023-07-13 09:28:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google