要約
事前トレーニングされた LLM を利用して、特に低リソース言語の ASR システムを改善することは、現在新たな研究分野となっています。
既存の方法は、ASR エラー訂正に LLM を使用するものから、ASR デコーダを LLM で置き換える密結合システムまで多岐にわたります。
これらのアプローチでは、デコード時間が増加するか、クロスアテンション層の高価なトレーニングが必要になります。
我々は、両方のデコーダを同期的に進めながら、ASR のデコーダ層を LLM デコーダに結合する SALSA を提案します。
このような結合は、最後のデコーダ状態の単純な投影を使用して実行されるため、以前のアプローチよりもトレーニング効率が大幅に向上します。
私たちが提案するカップリングの課題は、LLM システムと ASR システムのトークナイザー間の不一致を処理することです。
この不一致は、LLM および ASR 語彙に関してカスケード トークン化を使用して処理します。
FLEURS ベンチマークで 8 つの低リソース言語で SALSA を評価し、最大 38% という大幅な WER 削減が得られました。
要約(オリジナル)
Harnessing pre-trained LLMs to improve ASR systems, particularly for low-resource languages, is now an emerging area of research. Existing methods range from using LLMs for ASR error correction to tightly coupled systems that replace the ASR decoder with the LLM. These approaches either increase decoding time or require expensive training of the cross-attention layers. We propose SALSA, which couples the decoder layers of the ASR to the LLM decoder, while synchronously advancing both decoders. Such coupling is performed with a simple projection of the last decoder state, and is thus significantly more training efficient than earlier approaches. A challenge of our proposed coupling is handling the mismatch between the tokenizers of the LLM and ASR systems. We handle this mismatch using cascading tokenization with respect to the LLM and ASR vocabularies. We evaluate SALSA on 8 low-resource languages in the FLEURS benchmark, yielding substantial WER reductions of up to 38%.
arxiv情報
著者 | Ashish Mittal,Darshan Prabhu,Sunita Sarawagi,Preethi Jyothi |
発行日 | 2024-08-29 14:00:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google