要約
事前訓練された音声モデルの絶え間ない進化は、音声感情認識(SER)を大きく進歩させた。しかし、これらの手法にはまだ性能向上の可能性が残されている。本論文では、SERのためのHuBERTベースの新しい適応的伝達学習フレームワークであるGMP-ATL(Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning)を紹介する。具体的には、GMP-ATLは、まず事前に訓練されたHuBERTを採用し、マルチタスク学習とマルチスケールk-meansクラスタリングを実装して、フレームレベルの性別補整マルチスケール擬似ラベルを取得する。次に、得られたフレームレベルの感情ラベルと発話レベルの感情ラベルの両方を十分に活用するために、モデルの再トレーニングと微調整手法を取り入れ、GMP-ATLをさらに最適化する。IEMOCAPを用いた実験の結果、我々のGMP-ATLはWAR 80.0%、UAR 82.0%という優れた認識性能を達成し、最先端のユニモーダルSER手法を凌駕するとともに、マルチモーダルSER手法と同等の結果を得ることができた。
要約(オリジナル)
The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, there is still potential for enhancement in the performance of these methods. In this paper, we present GMP-ATL (Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning), a novel HuBERT-based adaptive transfer learning framework for SER. Specifically, GMP-ATL initially employs the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level gender-augmented multi-scale pseudo-labels. Then, to fully leverage both obtained frame-level and utterance-level emotion labels, we incorporate model retraining and fine-tuning methods to further optimize GMP-ATL. Experiments on IEMOCAP show that our GMP-ATL achieves superior recognition performance, with a WAR of 80.0\% and a UAR of 82.0\%, surpassing state-of-the-art unimodal SER methods, while also yielding comparable results with multimodal SER approaches.
arxiv情報
著者 | Yu Pan,Yuguang Yang,Heng Lu,Lei Ma,Jianjun Zhao |
発行日 | 2024-05-03 14:58:46+00:00 |
arxivサイト | arxiv_id(pdf) |