Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約

タイトル:音声認識における効率的なウェイクワード検出のためのデュアルアテンションニューラルトランスデューサー

要約:
– ウェイクワード(WW)の認識を向上させ、音声認識タスクの推論時間の遅延を改善するために設計されたデュアルアテンションニューラルバイアスを提供する。
– このアーキテクチャは、WW検出を活用して、入力オーディオフレームの実行するアテンションネットワークのブランチを選択することで、ランタイム計算パスのダイナミックなスイッチを可能にする。
– このアプローチにより、WW検出の精度を効果的に向上させながら、浮動小数点演算(FLOPs)によるランタイム計算コストを削減できる。
– 社内の非識別データセットを使用して、提案されたデュアルアテンションネットワークは、パラメータ数のわずかな増加でWWオーディオフレームの計算コストを$90\%$削減できることを示し、ベースラインと比較してWW F1スコアが相対的に$16\%$向上し、一般的なレアワードエラー率が相対的に$3\%$向上する。

要約(オリジナル)

We present dual-attention neural biasing, an architecture designed to boost Wake Words (WW) recognition and improve inference time latency on speech recognition tasks. This architecture enables a dynamic switch for its runtime compute paths by exploiting WW spotting to select which branch of its attention networks to execute for an input audio frame. With this approach, we effectively improve WW spotting accuracy while saving runtime compute cost as defined by floating point operations (FLOPs). Using an in-house de-identified dataset, we demonstrate that the proposed dual-attention network can reduce the compute cost by $90\%$ for WW audio frames, with only $1\%$ increase in the number of parameters. This architecture improves WW F1 score by $16\%$ relative and improves generic rare word error rate by $3\%$ relative compared to the baselines.

arxiv情報

著者 Saumya Y. Sahai,Jing Liu,Thejaswi Muniyappa,Kanthashree M. Sathyendra,Anastasios Alexandridis,Grant P. Strimel,Ross McGowan,Ariya Rastrow,Feng-Ju Chang,Athanasios Mouchtaris,Siegfried Kunzmann
発行日 2023-04-03 01:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク