Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition


このペーパーでは、コンテキスト エンコーダーの潜在空間からハード ネガティブ フレーズをマイニングするシンプルかつ効率的な方法を使用して、エンドツーエンドの Context-Aware Transformer Transducer (CATT) モデルをトレーニングするための拡張機能を紹介します。
これらのサンプリングされたフレーズは、ランダムな真実のコンテキスト情報とともにコンテキスト リスト内の否定的な例として使用されます。
コンテキスト リストに近似最近傍フレーズ (ANN-P) を含めることにより、学習された表現において、類似しているが同一ではないバイアスのあるフレーズ間の曖昧さを解消することが奨励されます。
これにより、バイアス インベントリに類似したフレーズが複数ある場合のバイアスの精度が向上します。
私たちは大規模なデータ体制で実験を実行し、テストデータのコンテキスト部分について最大 7% の相対的な単語誤り率の削減を実現します。
また、ストリーミング アプリケーションにおける CATT アプローチを拡張および評価します。


This paper presents an extension to train end-to-end Context-Aware Transformer Transducer ( CATT ) models by using a simple, yet efficient method of mining hard negative phrases from the latent space of the context encoder. During training, given a reference query, we mine a number of similar phrases using approximate nearest neighbour search. These sampled phrases are then used as negative examples in the context list alongside random and ground truth contextual information. By including approximate nearest neighbour phrases (ANN-P) in the context list, we encourage the learned representation to disambiguate between similar, but not identical, biasing phrases. This improves biasing accuracy when there are several similar phrases in the biasing inventory. We carry out experiments in a large-scale data regime obtaining up to 7% relative word error rate reductions for the contextual portion of test data. We also extend and evaluate CATT approach in streaming applications.


著者 Maurits Bleeker,Pawel Swietojanski,Stefan Braun,Xiaodan Zhuang
発行日 2023-08-16 10:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, eess.AS パーマリンク