要約
最近、下流タスクでの音声自己教師ありモデル (SSL) の使用が大きな注目を集めています。
一般に、事前トレーニングされた大規模なモデルは、最初からトレーニングされた小規模なモデルよりも優れたパフォーマンスを発揮しますが、最適な微調整戦略に関する疑問は依然として広まっています。
このペーパーでは、MSP ポッドキャスト コーパス上の音声感情認識タスク用の WavLM Large モデルの微調整戦略を検討します。
より具体的には、発話からの性別と意味情報の使用に焦点を当てた一連の実験を実行します。
次に、調査結果を要約し、Speech Emotion Recognition Challenge 2024 への提出に使用した最終モデルについて説明します。
要約(オリジナル)
Recently, the usage of speech self-supervised models (SSL) for downstream tasks has been drawing a lot of attention. While large pre-trained models commonly outperform smaller models trained from scratch, questions regarding the optimal fine-tuning strategies remain prevalent. In this paper, we explore the fine-tuning strategies of the WavLM Large model for the speech emotion recognition task on the MSP Podcast Corpus. More specifically, we perform a series of experiments focusing on using gender and semantic information from utterances. We then sum up our findings and describe the final model we used for submission to Speech Emotion Recognition Challenge 2024.
arxiv情報
著者 | Daria Diatlova,Anton Udalov,Vitalii Shutov,Egor Spirin |
発行日 | 2024-05-07 16:53:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google