CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders

要約

大規模な自己監視型の事前トレーニング済み音声エンコーダは、音声認識および翻訳タスクにおいて従来のアプローチよりも優れたパフォーマンスを発揮します。
これらの大規模なモデルの開発コストが高いため、新しいタスク用に新しいエンコーダーを構築し、それをオンデバイス アプリケーションに展開することは現実的ではありません。
以前の研究では、この問題に対処するためのモデル圧縮方法が提案されていますが、それらの研究はより小さなモデルとあまり現実的ではないタスクに焦点を当てています。
そこで、我々は、マスクされた予測と対照学習を利用して、大規模な教師モデルの動作をコピーするように生徒モデルをトレーニングすることにより、事前トレーニングされた音声エンコーダを圧縮する新しい知識蒸留方法である対比層間蒸留 (CoLLD) を提案します。
CoLLD は従来の方法よりも優れたパフォーマンスを示し、多言語音声からテキストへの翻訳および認識ベンチマークにおける小規模モデルと大規模モデル間のギャップを埋めます。

要約(オリジナル)

Large-scale self-supervised pre-trained speech encoders outperform conventional approaches in speech recognition and translation tasks. Due to the high cost of developing these large models, building new encoders for new tasks and deploying them to on-device applications are infeasible. Prior studies propose model compression methods to address this issue, but those works focus on smaller models and less realistic tasks. Thus, we propose Contrastive Layer-to-layer Distillation (CoLLD), a novel knowledge distillation method to compress pre-trained speech encoders by leveraging masked prediction and contrastive learning to train student models to copy the behavior of a large teacher model. CoLLD outperforms prior methods and closes the gap between small and large models on multilingual speech-to-text translation and recognition benchmarks.

arxiv情報

著者 Heng-Jui Chang,Ning Dong,Ruslan Mavlyutov,Sravya Popuri,Yu-An Chung
発行日 2023-09-14 13:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク