Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition

要約

Wav2Vec 2.0 は音声認識 (ASR) 用に提案されていますが、音声感情認識 (SER) にも使用できます。
そのパフォーマンスは、さまざまな微調整戦略を使用して大幅に改善できます。
2 つのベースライン手法、バニラ微調整 (V-FT) とタスク適応型事前トレーニング (TAPT) が最初に提示されます。
V-FT が IEMOCAP データセットで最先端のモデルよりも優れていることを示します。
既存の NLP 微調整戦略である TAPT は、SER のパフォーマンスをさらに向上させます。
また、コンテキスト化された感情表現を学習するために TAPT 目標を変更する、P-TAPT と呼ばれる新しい微調整方法も紹介します。
実験によると、特にリソースが少ない設定では、P-TAPT が TAPT よりも優れたパフォーマンスを発揮します。
この文献の以前の研究と比較して、私たちのトップライン システムは、IEMOCAP での最先端のパフォーマンスよりも、重み付けされていない精度 (UA) で 7.4\% の絶対改善を達成しました。
私たちのコードは公開されています。

要約(オリジナル)

While Wav2Vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different fine-tuning strategies. Two baseline methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are first presented. We show that V-FT is able to outperform state-of-the-art models on the IEMOCAP dataset. TAPT, an existing NLP fine-tuning strategy, further improves the performance on SER. We also introduce a novel fine-tuning method termed P-TAPT, which modifies the TAPT objective to learn contextualized emotion representations. Experiments show that P-TAPT performs better than TAPT, especially under low-resource settings. Compared to prior works in this literature, our top-line system achieved a 7.4\% absolute improvement in unweighted accuracy (UA) over the state-of-the-art performance on IEMOCAP. Our code is publicly available.

arxiv情報

著者 Li-Wei Chen,Alexander Rudnicky
発行日 2023-02-21 17:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク