Pre-Finetuning for Few-Shot Emotional Speech Recognition

要約

音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られています。
これは、実稼働環境で一般的であるように、スピーカーがドメイン外または分布外にある設定で一般化が不十分になることにつながります。
私たちは、話者適応を数ショット学習の問題と見なし、自然言語タスクでの事前トレーニング済みモデルによる最近の成功に触発された転移学習アプローチの調査を提案します。
知識を少数のダウンストリーム分類目標に抽出するために、困難なタスクで音声モデルを事前に微調整することを提案します。
4 つのマルチクラス感情音声認識コーパスの順列ごとに Wav2Vec2.0 を事前に微調整し、事前に微調整されたモデルを Emotional Speech Dataset での 33,600 回の微調整試行を通じて評価します。

要約(オリジナル)

Speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view speaker adaptation as a few-shot learning problem and propose investigating transfer learning approaches inspired by recent success with pre-trained models in natural language tasks. We propose pre-finetuning speech models on difficult tasks to distill knowledge into few-shot downstream classification objectives. We pre-finetune Wav2Vec2.0 on every permutation of four multiclass emotional speech recognition corpora and evaluate our pre-finetuned models through 33,600 few-shot fine-tuning trials on the Emotional Speech Dataset.

arxiv情報

著者 Maximillian Chen,Zhou Yu
発行日 2023-02-28 02:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク