MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization

要約

事前トレーニングされたモデルは、追加コストがかかるものの、音声認識における基本的なアプローチとなってきました。
この研究では、視覚および視聴覚音声認識モデル (VSR および AVSR) を最初からトレーニングすることを容易にする正則化手法を提案します。
\textbf{MSRS} (Multimodal Speech Recognition from Scratch) と略称されるこのアプローチでは、トレーニングの最初の段階で密なモデル内の疎な構造を迅速に学習する疎な正則化が導入され、密な等価モデルよりも健全な勾配フローが受信されます。
スパース マスクが安定すると、私たちの方法では、ゼロ以外の値を更新することで密なモデルに移行したり、スパース モデルを維持したりすることができます。
MSRS は、VSR と AVSR で、LRS3 ベンチマークで 21.1% と 0.9% の WER という優れた結果を達成しながら、トレーニング時間を少なくとも 2 倍短縮します。
他のスパースアプローチを検討し、消失勾配の影響を受ける重みを暗黙的にマスクすることによってゼロからトレーニングできるのは MSRS だけであることを示します。

要約(オリジナル)

Pre-trained models have been a foundational approach in speech recognition, albeit with associated additional costs. In this study, we propose a regularization technique that facilitates the training of visual and audio-visual speech recognition models (VSR and AVSR) from scratch. This approach, abbreviated as \textbf{MSRS} (Multimodal Speech Recognition from Scratch), introduces a sparse regularization that rapidly learns sparse structures within the dense model at the very beginning of training, which receives healthier gradient flow than the dense equivalent. Once the sparse mask stabilizes, our method allows transitioning to a dense model or keeping a sparse model by updating non-zero values. MSRS achieves competitive results in VSR and AVSR with 21.1% and 0.9% WER on the LRS3 benchmark, while reducing training time by at least 2x. We explore other sparse approaches and show that only MSRS enables training from scratch by implicitly masking the weights affected by vanishing gradients.

arxiv情報

著者 Adriana Fernandez-Lopez,Honglie Chen,Pingchuan Ma,Lu Yin,Qiao Xiao,Stavros Petridis,Shiwei Liu,Maja Pantic
発行日 2024-06-25 15:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク