Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions

要約

エンドツーエンドの自動音声認識 (E2E ASR) システムは、広範なデータセットでのトレーニングを通じて音声認識を大幅に向上させました。
こうした進歩にもかかわらず、固有名詞や専門用語などのドメイン固有の単語を正確に認識するのは依然として困難です。
この問題に対処するために、私たちは、アーキテクチャを変更せずに最先端の Whisper を利用し、一般化パフォーマンスを維持しながら、記述を効果的に活用できるようにする方法を提案します。
さらに、ドメイン固有の ASR を改善するために、デコーダーの微調整とコンテキスト摂動という 2 つの追加のトレーニング手法を提案します。
また、説明が利用できない場合に、大規模言語モデル (LLM) を使用して単純なメタデータを含む説明を生成する方法も提案します。
私たちの実験では、提案された手法が現実のデータセットにおけるドメイン固有の ASR 精度を著しく向上させ、LLM で生成された記述の有効性が人為的に作成された記述を上回っていることが実証されました。

要約(オリジナル)

End-to-end automatic speech recognition (E2E ASR) systems have significantly improved speech recognition through training on extensive datasets. Despite these advancements, they still struggle to accurately recognize domain specific words, such as proper nouns and technical terminologies. To address this problem, we propose a method to utilize the state-of-the-art Whisper without modifying its architecture, preserving its generalization performance while enabling it to leverage descriptions effectively. Moreover, we propose two additional training techniques to improve the domain specific ASR: decoder fine-tuning, and context perturbation. We also propose a method to use a Large Language Model (LLM) to generate descriptions with simple metadata, when descriptions are unavailable. Our experiments demonstrate that proposed methods notably enhance domain-specific ASR accuracy on real-life datasets, with LLM-generated descriptions outperforming human-crafted ones in effectiveness.

arxiv情報

著者 Jiwon Suh,Injae Na,Woohwan Jung
発行日 2024-07-25 08:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク