要約
蒸留された自己教師ありモデルは、近年、競争力のあるパフォーマンスと効率を示しています。
ただし、複数の自己教師あり音声モデルを共同で抽出する経験が不足しています。
私たちの研究では、HuBERT、RobustHuBERT、WavLM などのさまざまな自己教師あり音声モデルに対して Ensemble Knowledge Distillation (EKD) を実行しました。
異なる教師モデルの表現に対して、レイヤーごとの平均とレイヤーごとの連結という 2 つの異なる集計手法を試したところ、前者の方が効果的であることがわかりました。
その上で、複数の教師モデルの異なる層の出力を同時に予測するために、生徒モデルの複数予測ヘッド法を提案しました。
実験結果は、SUPERB ベンチマークの隠れセット トラックで、ダウンストリームの 4 つの音声処理タスク、音素認識、話者識別、感情認識、自動音声認識で、抽出されたモデルのパフォーマンスが向上することを示しています。
要約(オリジナル)
Distilled self-supervised models have shown competitive performance and efficiency in recent years. However, there is a lack of experience in jointly distilling multiple self-supervised speech models. In our work, we performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech models such as HuBERT, RobustHuBERT, and WavLM. We tried two different aggregation techniques, layerwise-average and layerwise-concatenation, to the representations of different teacher models and found that the former was more effective. On top of that, we proposed a multiple prediction head method for student models to predict different layer outputs of multiple teacher models simultaneously. The experimental results show that our method improves the performance of the distilled models on four downstream speech processing tasks, Phoneme Recognition, Speaker Identification, Emotion Recognition, and Automatic Speech Recognition in the hidden-set track of the SUPERB benchmark.
arxiv情報
著者 | Kuan-Po Huang,Tzu-hsun Feng,Yu-Kuan Fu,Tsu-Yuan Hsu,Po-Chieh Yen,Wei-Cheng Tseng,Kai-Wei Chang,Hung-yi Lee |
発行日 | 2023-02-24 17:15:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google