Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition

要約

言語モデル (LM) の統合は、音声認識におけるドメインの変化に対処する効果的な方法であることが証明されています。
ただし、これらのアプローチでは通常、LM のトレーニングに大量のターゲット ドメイン テキスト データが必要になります。
これらの方法とは異なり、この研究では、ドメイン固有のテキスト プロンプトのみを使用して、70 億パラメータの大規模言語モデル (LLM) である LLaMA を使用した 2 つのゼロショット ASR ドメイン適応方法を提案します。
LLM は 2 つの方法で使用されます。1) セカンドパス スコアリング: LLaMA を使用して、特定の ASR システムの N 最良の仮説を再ランク付けします。
2) ディープ LLM 融合: LLM をエンコーダ/デコーダ ベースの ASR システムのデコーダに組み込む。
実験では、ドメイン プロンプトが 1 つだけの場合、どちらの方法でもドメイン外の TedLium-2 および SPGISpeech データセットの単語誤り率 (WER) を効果的に削減できることが示されています。
特に、深い LLM 融合には、エンティティや語彙外の単語の想起が向上するという利点があります。

要約(オリジナル)

The integration of Language Models (LMs) has proven to be an effective way to address domain shifts in speech recognition. However, these approaches usually require a significant amount of target domain text data for the training of LMs. Different from these methods, in this work, with only a domain-specific text prompt, we propose two zero-shot ASR domain adaptation methods using LLaMA, a 7-billion-parameter large language model (LLM). LLM is used in two ways: 1) second-pass rescoring: reranking N-best hypotheses of a given ASR system with LLaMA; 2) deep LLM-fusion: incorporating LLM into the decoder of an encoder-decoder based ASR system. Experiments show that, with only one domain prompt, both methods can effectively reduce word error rates (WER) on out-of-domain TedLium-2 and SPGISpeech datasets. Especially, the deep LLM-fusion has the advantage of better recall of entity and out-of-vocabulary words.

arxiv情報

著者 Yuang Li,Yu Wu,Jinyu Li,Shujie Liu
発行日 2023-06-28 08:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS, eess.SP パーマリンク