LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation

要約

音声情報を大規模言語モデル (LLM) に統合する最近の進歩により、自動音声認識 (ASR) の精度が大幅に向上しました。
ただし、既存の方法は、アクセントなどのさまざまな音響条件下で音声エンコーダの機能によって制限されることがよくあります。
これに対処するために、LLM ベースの ASR 用の新しい検索拡張生成 (RAG) パラダイムである LA-RAG を提案します。
LA-RAG は、きめの細かいトークンレベルの音声データストアと音声合成検索メカニズムを活用し、LLM インコンテキスト学習 (ICL) 機能によって ASR の精度を高めます。
北京語およびさまざまな中国語の方言データセットに関する実験では、既存の方法と比較して ASR の精度が大幅に向上していることが実証され、特にアクセントの変化の処理において、私たちのアプローチの有効性が検証されました。

要約(オリジナル)

Recent advancements in integrating speech information into large language models (LLMs) have significantly improved automatic speech recognition (ASR) accuracy. However, existing methods often constrained by the capabilities of the speech encoders under varied acoustic conditions, such as accents. To address this, we propose LA-RAG, a novel Retrieval-Augmented Generation (RAG) paradigm for LLM-based ASR. LA-RAG leverages fine-grained token-level speech datastores and a speech-to-speech retrieval mechanism to enhance ASR accuracy via LLM in-context learning (ICL) capabilities. Experiments on Mandarin and various Chinese dialect datasets demonstrate significant improvements in ASR accuracy compared to existing methods, validating the effectiveness of our approach, especially in handling accent variations.

arxiv情報

著者 Shaojun Li,Hengchao Shang,Daimeng Wei,Jiaxin Guo,Zongyao Li,Xianghui He,Min Zhang,Hao Yang
発行日 2024-09-13 07:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク