要約
【タイトル】規模のあるストリーミングASRにおけるセミスーパーバイズド学習の比較
【要約】
– 大きなラベル付きコーパスが存在しない場合、文字と音声の非対応挿入は、ASRパフォーマンスの向上に主要な方法として浮上している。
– しかし、非対応挿入を生産用のASRシステムに展開するための指導はほとんど存在せず、大規模な監視コーパスで訓練され、指定されたモデルサイズとCPU予算、ストリーミング機能、レスコアリングと下流NLUタスクのための豊富な格子を持つリアリスティックな要件を持つプロダクションASRシステムのパフォーマンスの向上方法は未解決である。
– この研究では、ジョイントトレーニングを使用した制御された設定で、文字と音声の非対応挿入を含む最新のセミスーパーバイズドメソッド3つを比較した。
– 著者らは、設定においてこれらの方法は、生のWERをはるかに超えた多くの改善点を提供することがわかった。その中には、尾部語WER、デコーダー計算、インフェランス中の格子の密度などが含まれる。
要約(オリジナル)
Unpaired text and audio injection have emerged as dominant methods for improving ASR performance in the absence of a large labeled corpus. However, little guidance exists on deploying these methods to improve production ASR systems that are trained on very large supervised corpora and with realistic requirements like a constrained model size and CPU budget, streaming capability, and a rich lattice for rescoring and for downstream NLU tasks. In this work, we compare three state-of-the-art semi-supervised methods encompassing both unpaired text and audio as well as several of their combinations in a controlled setting using joint training. We find that in our setting these methods offer many improvements beyond raw WER, including substantial gains in tail-word WER, decoder computation during inference, and lattice density.
arxiv情報
著者 | Cal Peyser,Michael Picheny,Kyunghyun Cho,Rohit Prabhavalkar,Ronny Huang,Tara Sainath |
発行日 | 2023-04-19 18:09:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI