Pre-Finetuning for Few-Shot Emotional Speech Recognition

要約

音声モデルは、多くの分類タスクに対して個々の話者を過剰適合させることが長い間知られていました。
これは、実稼働環境でよくあることですが、スピーカーがドメイン外または配布外にある設定では、一般化が不十分になることにつながります。
私たちは話者適応を数ショット学習の問題として捉え、自然言語タスクにおける事前トレーニング済みモデルの最近の成功に触発された転移学習アプローチを調査することを提案します。
私たちは、知識を少数のショットの下流分類目標に抽出するために、困難なタスクに関する音声モデルを事前に微調整することを提案します。
4 つのマルチクラス感情音声認識コーパスのすべての順列について Wav2Vec2.0 を事前に微調整し、感情音声データセットでの 33,600 回の数ショット微調整試行を通じて事前に微調整されたモデルを評価します。

要約(オリジナル)

Speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view speaker adaptation as a few-shot learning problem and propose investigating transfer learning approaches inspired by recent success with pre-trained models in natural language tasks. We propose pre-finetuning speech models on difficult tasks to distill knowledge into few-shot downstream classification objectives. We pre-finetune Wav2Vec2.0 on every permutation of four multiclass emotional speech recognition corpora and evaluate our pre-finetuned models through 33,600 few-shot fine-tuning trials on the Emotional Speech Dataset.

arxiv情報

著者 Maximillian Chen,Zhou Yu
発行日 2024-11-07 15:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク