STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

要約

Transformer ベースの音声自己教師あり学習 (SSL) モデルは優れたパフォーマンスを発揮しますが、パラメーター サイズと計算コストが大きいため、利用するのは不利です。
本研究では、音声時間関係 (STaR) を抽出することによって音声 SSL モデルを圧縮することを提案します。
各音声フレームの表現を直接一致させる以前の研究とは異なり、STaR 蒸留は音声フレーム間の時間的関係を転送するため、能力が限られた軽量の学生に適しています。
3 つの STaR 蒸留目標を検討し、最終的な STaR 損失として最適な組み合わせを選択します。
HuBERT BASE から抽出されたモデルは、SUPERB ベンチマークで総合スコア 79.8 を達成し、最大 2,700 万のパラメータを持つモデルの中で最高のパフォーマンスを達成しました。
私たちの方法がさまざまな音声 SSL モデルに適用可能であり、パラメータをさらに削減しても堅牢なパフォーマンスを維持できることを示します。

要約(オリジナル)

Albeit great performance of Transformer-based speech selfsupervised learning (SSL) models, their large parameter size and computational cost make them unfavorable to utilize. In this study, we propose to compress the speech SSL models by distilling speech temporal relation (STaR). Unlike previous works that directly match the representation for each speech frame, STaR distillation transfers temporal relation between speech frames, which is more suitable for lightweight student with limited capacity. We explore three STaR distillation objectives and select the best combination as the final STaR loss. Our model distilled from HuBERT BASE achieves an overall score of 79.8 on SUPERB benchmark, the best performance among models with up to 27 million parameters. We show that our method is applicable across different speech SSL models and maintains robust performance with further reduced parameters.

arxiv情報

著者 Kangwook Jang,Sungnyun Kim,Hoirin Kim
発行日 2024-04-25 16:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク