Massively Multilingual Shallow Fusion with Large Language Models

要約

大規模言語モデル (LLM) は自然言語処理において印象的な進歩を遂げましたが、自動音声認識 (ASR) の改善にそれらをどのように利用するかは不明のままです。
この作業では、複数の言語での浅い融合のために単一の多言語言語モデル (LM) をトレーニングすることを提案します。
多言語 LM の限界を押し広げ、専門家混合 LLM、つまりジェネラリスト言語モデル (GLaM) を使用してスケールアップすることにより、最大 84 の言語をカバーします。
エキスパートの数が増えると、GLaM は各デコード ステップで 2 つだけを動的に選択して、推論計算をほぼ一定に保ちます。
次に、最先端のエンド ツー エンド モデルに基づいて、GLaM を多言語の浅い融合タスクに適用します。
推論中の同様の計算の密な LM と比較すると、GLaM は英語のロングテール テスト セットの WER を相対的に 4.4% 削減します。
多言語の浅い融合タスクでは、GLaM は 50 のうち 41 の言語を改善し、平均で相対的な WER を 3.85% 削減し、最大で 10% 削減しました。
ベースライン モデルと比較して、GLaM は 43 の言語で平均 5.53% の WER 削減を達成しています。

要約(オリジナル)

While large language models (LLM) have made impressive progress in natural language processing, it remains unclear how to utilize them in improving automatic speech recognition (ASR). In this work, we propose to train a single multilingual language model (LM) for shallow fusion in multiple languages. We push the limits of the multilingual LM to cover up to 84 languages by scaling up using a mixture-of-experts LLM, i.e., generalist language model (GLaM). When the number of experts increases, GLaM dynamically selects only two at each decoding step to keep the inference computation roughly constant. We then apply GLaM to a multilingual shallow fusion task based on a state-of-the-art end-to-end model. Compared to a dense LM of similar computation during inference, GLaM reduces the WER of an English long-tail test set by 4.4% relative. In a multilingual shallow fusion task, GLaM improves 41 out of 50 languages with an average relative WER reduction of 3.85%, and a maximum reduction of 10%. Compared to the baseline model, GLaM achieves an average WER reduction of 5.53% over 43 languages.

arxiv情報

著者 Ke Hu,Tara N. Sainath,Bo Li,Nan Du,Yanping Huang,Andrew M. Dai,Yu Zhang,Rodrigo Cabrera,Zhifeng Chen,Trevor Strohman
発行日 2023-02-17 14:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク