Towards Early Prediction of Self-Supervised Speech Model Performance

要約

自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量に消費されます。
音声ドメインでは、損失など、事前トレーニング中の SSL モデルの品質を示す現在の指標は、ダウンストリームのパフォーマンスと十分な相関関係がありません。
したがって、事前トレーニング中にコスト効率の高い方法で最終的なダウンストリームのパフォーマンスを測定することは多くの場合困難です。
この研究では、SSL 音声モデルの事前トレーニングの品質、つまりクラスターの品質と SSL モデルの埋め込みのランクを測定するための洞察を与える、教師なしの効率的な方法を提案します。
結果は、クラスターの品質とランクの測定値が、ラベルなしの音声を 1 時間だけ使用した場合のトレーニング前の損失よりも、ダウンストリームのパフォーマンスとの相関性が高く、SSL モデル評価における GPU 時間とラベル付きデータの必要性を削減することを示しています。

要約(オリジナル)

In Self-Supervised Learning (SSL), pre-training and evaluation are resource intensive. In the speech domain, current indicators of the quality of SSL models during pre-training, such as the loss, do not correlate well with downstream performance. Consequently, it is often difficult to gauge the final downstream performance in a cost efficient manner during pre-training. In this work, we propose unsupervised efficient methods that give insights into the quality of the pre-training of SSL speech models, namely, measuring the cluster quality and rank of the embeddings of the SSL model. Results show that measures of cluster quality and rank correlate better with downstream performance than the pre-training loss with only one hour of unlabeled audio, reducing the need for GPU hours and labeled data in SSL model evaluation.

arxiv情報

著者 Ryan Whetten,Lucas Maison,Titouan Parcollet,Marco Dinarelli,Yannick Estève
発行日 2025-01-10 13:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク