Investigating the ‘Autoencoder Behavior’ in Speech Self-Supervised Models: a focus on HuBERT’s Pretraining


ここでは、それほど顕著ではない「自動エンコーダー」動作を示す HuBERT モデルに焦点を当てます。
影響を与える可能性のあるさまざまな要因を実験的に調査することで、私たちはトレーニング手順を改善し、高レベルのタスク向けに HuBERT の最上位層を強化することを目指しています。さらに、私たちの実験は、トレーニング手順のこれらの改善により、より高速な収束と競争力のあるパフォーマンスがもたらされることを示しています。


Self-supervised learning has shown great success in Speech Recognition. However, it has been observed that finetuning all layers of the learned model leads to lower performance compared to resetting top layers. This phenomenon is attributed to the ”autoencoder” behavior: top layers contain information closer to the input and are less suitable for tasks that require linguistic information, such as Speech Recognition.To better our understanding of this behavior, we propose to study the evolution of high-level information within the model during pretraining. We focus on the HuBERT model, which exhibits a less pronounced ”autoencoder” behavior. By experimentally exploring various factors that may have an impact, we aim to improve the training procedure and enhance the top layers of HuBERT for high-level tasks.Furthermore, our experiments demonstrate that these improvements in the training procedure result in faster convergence and competitive performance on downstream tasks.


著者 Valentin Vielzeuf
発行日 2024-05-14 07:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク