要約
自己教師あり学習は音声認識において大きな成功を収めています。
ただし、学習済みモデルのすべての層を微調整すると、最上位層をリセットする場合と比較してパフォーマンスが低下することが観察されています。
この現象は「オートエンコーダ」の動作に起因すると考えられます。最上位層には入力に近い情報が含まれており、音声認識などの言語情報を必要とするタスクにはあまり適していません。この動作をよりよく理解するために、
事前トレーニング中にモデル内の高レベルの情報が進化します。
ここでは、それほど顕著ではない「自動エンコーダー」動作を示す HuBERT モデルに焦点を当てます。
影響を与える可能性のあるさまざまな要因を実験的に調査することで、私たちはトレーニング手順を改善し、高レベルのタスク向けに HuBERT の最上位層を強化することを目指しています。さらに、私たちの実験は、トレーニング手順のこれらの改善により、より高速な収束と競争力のあるパフォーマンスがもたらされることを示しています。
下流のタスクについて。
要約(オリジナル)
Self-supervised learning has shown great success in Speech Recognition. However, it has been observed that finetuning all layers of the learned model leads to lower performance compared to resetting top layers. This phenomenon is attributed to the ”autoencoder” behavior: top layers contain information closer to the input and are less suitable for tasks that require linguistic information, such as Speech Recognition.To better our understanding of this behavior, we propose to study the evolution of high-level information within the model during pretraining. We focus on the HuBERT model, which exhibits a less pronounced ”autoencoder” behavior. By experimentally exploring various factors that may have an impact, we aim to improve the training procedure and enhance the top layers of HuBERT for high-level tasks.Furthermore, our experiments demonstrate that these improvements in the training procedure result in faster convergence and competitive performance on downstream tasks.
arxiv情報
著者 | Valentin Vielzeuf |
発行日 | 2024-05-14 07:55:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google