Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

要約

大規模モデルの時代では、デコードの自己回帰的な性質により、レイテンシーが重大なボトルネックとなることがよくあります。
アクセラレータ ハードウェアの並列化機能を効果的に活用する、非自己回帰 LM 融合 ASR システムを提案します。
私たちのアプローチでは、ユニバーサル スピーチ モデル (USM) と PaLM 2 言語モデルをセグメントごとのスコアリング モードで組み合わせ、すべての言語で平均相対的な WER 改善率 (FLEURS では 10.8%、YouTube キャプションでは 3.6%) を達成しました。
さらに、当社の包括的なアブレーション研究では、LLM サイズ、コンテキストの長さ、語彙サイズ、融合方法などの主要なパラメーターを分析します。
たとえば、128M から 340B の範囲の LLM サイズパラメータが ASR パフォーマンスに及ぼす影響を調査します。
この研究は、実用的な大規模 LM 融合音声認識システムの有効性に影響を与える要因についての貴重な洞察を提供します。

要約(オリジナル)

In the era of large models, the autoregressive nature of decoding often results in latency serving as a significant bottleneck. We propose a non-autoregressive LM-fused ASR system that effectively leverages the parallelization capabilities of accelerator hardware. Our approach combines the Universal Speech Model (USM) and the PaLM 2 language model in per-segment scoring mode, achieving an average relative WER improvement across all languages of 10.8% on FLEURS and 3.6% on YouTube captioning. Furthermore, our comprehensive ablation study analyzes key parameters such as LLM size, context length, vocabulary size, fusion methodology. For instance, we explore the impact of LLM size ranging from 128M to 340B parameters on ASR performance. This study provides valuable insights into the factors influencing the effectiveness of practical large-scale LM-fused speech recognition systems.

arxiv情報

著者 W. Ronny Huang,Cyril Allauzen,Tongzhou Chen,Kilol Gupta,Ke Hu,James Qin,Yu Zhang,Yongqiang Wang,Shuo-Yiin Chang,Tara N. Sainath
発行日 2024-01-23 14:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク