Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition

要約

このペーパーでは、コンテキスト エンコーダーの潜在空間からハード ネガティブ フレーズをマイニングするシンプルかつ効率的な方法を使用して、エンドツーエンドの Context-Aware Transformer Transducer (CATT) モデルをトレーニングするための拡張機能を紹介します。
トレーニング中に、参照クエリが与えられた場合、近似最近傍検索を使用して多数の類似したフレーズをマイニングします。
これらのサンプリングされたフレーズは、ランダムな真実のコンテキスト情報とともにコンテキスト リスト内の否定的な例として使用されます。
コンテキスト リストに近似最近傍フレーズ (ANN-P) を含めることにより、学習された表現において、類似しているが同一ではないバイアスのあるフレーズ間の曖昧さを解消することが奨励されます。
これにより、バイアス インベントリに類似したフレーズが複数ある場合のバイアスの精度が向上します。
私たちは大規模なデータ体制で実験を実行し、テストデータのコンテキスト部分について最大 7% の相対的な単語誤り率の削減を実現します。
また、ストリーミング アプリケーションにおける CATT アプローチを拡張および評価します。

要約(オリジナル)

This paper presents an extension to train end-to-end Context-Aware Transformer Transducer ( CATT ) models by using a simple, yet efficient method of mining hard negative phrases from the latent space of the context encoder. During training, given a reference query, we mine a number of similar phrases using approximate nearest neighbour search. These sampled phrases are then used as negative examples in the context list alongside random and ground truth contextual information. By including approximate nearest neighbour phrases (ANN-P) in the context list, we encourage the learned representation to disambiguate between similar, but not identical, biasing phrases. This improves biasing accuracy when there are several similar phrases in the biasing inventory. We carry out experiments in a large-scale data regime obtaining up to 7% relative word error rate reductions for the contextual portion of test data. We also extend and evaluate CATT approach in streaming applications.

arxiv情報

著者 Maurits Bleeker,Pawel Swietojanski,Stefan Braun,Xiaodan Zhuang
発行日 2023-08-16 10:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク