Bilevel Joint Unsupervised and Supervised Training for Automatic Speech Recognition

要約

この論文では、自動音声認識のためのバイレベル共同教師なしおよび教師ありトレーニング (BL-JUST) フレームワークを提案します。
切り離された 2 段階のプロセスである従来の事前トレーニングおよび微調整戦略と比較して、BL-JUST は、教師なし損失関数と教師あり損失関数の両方を同時に最小化するように音響モデルを最適化しようとします。
BL-JUST は両方の損失関数の一致する局所最適値を求めるため、音響モデルによって学習された音響表現は、一般的であることとタスク固有であることの間で適切なバランスが取れています。
ペナルティベースの二値勾配降下法を使用して BL-JUST 問題を解き、さまざまなアーキテクチャと損失関数を備えたさまざまなデータセットでトレーニングされたディープ ニューラル ネットワーク音響モデルを評価します。
BL-JUST が、広く使用されている事前トレーニングおよび微調整戦略や、その他の一般的な半教師あり手法を上回るパフォーマンスを発揮できることを示します。

要約(オリジナル)

In this paper, we propose a bilevel joint unsupervised and supervised training (BL-JUST) framework for automatic speech recognition. Compared to the conventional pre-training and fine-tuning strategy which is a disconnected two-stage process, BL-JUST tries to optimize an acoustic model such that it simultaneously minimizes both the unsupervised and supervised loss functions. Because BL-JUST seeks matched local optima of both loss functions, acoustic representations learned by the acoustic model strike a good balance between being generic and task-specific. We solve the BL-JUST problem using penalty-based bilevel gradient descent and evaluate the trained deep neural network acoustic models on various datasets with a variety of architectures and loss functions. We show that BL-JUST can outperform the widely-used pre-training and fine-tuning strategy and some other popular semi-supervised techniques.

arxiv情報

著者 Xiaodong Cui,A F M Saif,Songtao Lu,Lisha Chen,Tianyi Chen,Brian Kingsbury,George Saon
発行日 2024-12-11 17:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク