Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

要約

ニューラル コンテキスト バイアスにより、音声認識モデルがコンテキストに関連した情報を活用できるようになり、文字起こしの精度が向上します。
ただし、バイアス メカニズムは通常、オーディオとバイアス エントリのカタログの間のクロス アテンション モジュールに基づいています。これは、計算の複雑さにより、バイアス カタログのサイズ、ひいては精度の向上に実際的な厳しい制限が生じる可能性があることを意味します。
この研究は、ベクトル量子化に基づくクロスアテンション スコアリングの近似を提案し、大規模なバイアス カタログの計算効率とメモリ効率の高い使用を可能にします。
我々は、この手法を検索ベースの文脈バイアス手法と組み合わせて使用​​することを提案します。
まず、効率的な量子化検索モジュールを使用して、オーディオに基づいてバイアスのあるエントリを最終リストにまとめます。
次に、取得したエントリをバイアスに使用します。
提案されたアプローチはバイアス方法に依存しないため、完全なクロスアテンション、LLM プロンプト、およびその 2 つの組み合わせを使用して調査します。
検索ベースの候補リスト作成により、システムが数千のエントリからなる偏ったカタログを効率的に活用できるようになり、その結果、個人エンティティ認識における相対エラー率が最大 71% 削減されることを示します。
同時に、提案された近似アルゴリズムは、標準のドット積クロスアテンションと比較した場合、最大 100 万エントリのリストについて、計算時間を 20% 削減し、メモリ使用量を 85 ~ 95% 削減します。

要約(オリジナル)

Neural contextual biasing allows speech recognition models to leverage contextually relevant information, leading to improved transcription accuracy. However, the biasing mechanism is typically based on a cross-attention module between the audio and a catalogue of biasing entries, which means computational complexity can pose severe practical limitations on the size of the biasing catalogue and consequently on accuracy improvements. This work proposes an approximation to cross-attention scoring based on vector quantization and enables compute- and memory-efficient use of large biasing catalogues. We propose to use this technique jointly with a retrieval based contextual biasing approach. First, we use an efficient quantized retrieval module to shortlist biasing entries by grounding them on audio. Then we use retrieved entries for biasing. Since the proposed approach is agnostic to the biasing method, we investigate using full cross-attention, LLM prompting, and a combination of the two. We show that retrieval based shortlisting allows the system to efficiently leverage biasing catalogues of several thousands of entries, resulting in up to 71% relative error rate reduction in personal entity recognition. At the same time, the proposed approximation algorithm reduces compute time by 20% and memory usage by 85-95%, for lists of up to one million entries, when compared to standard dot-product cross-attention.

arxiv情報

著者 Nikolaos Flemotomos,Roger Hsiao,Pawel Swietojanski,Takaaki Hori,Dogan Can,Xiaodan Zhuang
発行日 2024-11-04 17:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク