Retrieve and Copy: Scaling ASR Personalization to Large Catalogs

要約

自動音声認識 (ASR) モデルのパーソナライゼーションは、多くの実用的なアプリケーションがあるため、広く研究されているトピックです。
ごく最近では、注意に基づくコンテキスト バイアス技術が、まれな単語やドメイン固有のエンティティの認識を向上させるために使用されています。
ただし、パフォーマンス上の制約により、バイアスは数千のエンティティに制限されることが多く、現実世界での使いやすさが制限されます。
これに対処するために、まず、大規模なカタログに拡張した場合でも精度を維持しながら遅延を改善する「取得とコピー」メカニズムを提案します。
また、混乱を招くエンティティの数の増加によるこのような規模での再現率の低下を克服するためのトレーニング戦略も提案します。
全体として、私たちのアプローチは、強力なベースラインと比較して、ワード誤り率 (WERR) を最大 6% 削減し、F1 で 3.6% の絶対的な改善を達成します。
また、私たちの方法では、音響フレームごとに少なくとも 20% の推論速度向上を達成しながら、WER および F1 スコアに大きな影響を与えることなく、最大 20K の大きなカタログ サイズも可能になります。

要約(オリジナル)

Personalization of automatic speech recognition (ASR) models is a widely studied topic because of its many practical applications. Most recently, attention-based contextual biasing techniques are used to improve the recognition of rare words and domain specific entities. However, due to performance constraints, the biasing is often limited to a few thousand entities, restricting real-world usability. To address this, we first propose a ‘Retrieve and Copy’ mechanism to improve latency while retaining the accuracy even when scaled to a large catalog. We also propose a training strategy to overcome the degradation in recall at such scale due to an increased number of confusing entities. Overall, our approach achieves up to 6% more Word Error Rate reduction (WERR) and 3.6% absolute improvement in F1 when compared to a strong baseline. Our method also allows for large catalog sizes of up to 20K without significantly affecting WER and F1-scores, while achieving at least 20% inference speedup per acoustic frame.

arxiv情報

著者 Sai Muralidhar Jayanthi,Devang Kulshreshtha,Saket Dingliwal,Srikanth Ronanki,Sravan Bodapati
発行日 2023-11-14 18:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS パーマリンク