Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約

タイトル: 話者認識における二重注視ニューラルトランスデューサーによる効率的なウェイクワード検出

要約:
– ウェイクワード(WW)の認識を促進し、音声認識タスクの推論時間の遅延を改善するために設計された二重注視ニューラルバイアスアーキテクチャを提案している。
– このアーキテクチャは、WW検出を利用して、入力音声フレームのどちらのブランチを実行するかを選択することによって、ランタイムの計算パスをダイナミックに切り替えることができる。
– このアプローチにより、WW検出精度を効果的に改善しながら、浮動小数点演算(FLOPs)によるランタイム計算コストを削減することができる。
– 内部の無名のデータセットを使用して、提案された二重注視ネットワークが、WWオーディオフレームの計算コストを90%削減し、パラメータ数のわずか1%増加でWW F1スコアを相対的に16%向上させ、一般的な稀な語錯誤率を相対的に3%向上させることを示した。

要約(オリジナル)

We present dual-attention neural biasing, an architecture designed to boost Wake Words (WW) recognition and improve inference time latency on speech recognition tasks. This architecture enables a dynamic switch for its runtime compute paths by exploiting WW spotting to select which branch of its attention networks to execute for an input audio frame. With this approach, we effectively improve WW spotting accuracy while saving runtime compute cost as defined by floating point operations (FLOPs). Using an in-house de-identified dataset, we demonstrate that the proposed dual-attention network can reduce the compute cost by $90\%$ for WW audio frames, with only $1\%$ increase in the number of parameters. This architecture improves WW F1 score by $16\%$ relative and improves generic rare word error rate by $3\%$ relative compared to the baselines.

arxiv情報

著者 Saumya Y. Sahai,Jing Liu,Thejaswi Muniyappa,Kanthashree M. Sathyendra,Anastasios Alexandridis,Grant P. Strimel,Ross McGowan,Ariya Rastrow,Feng-Ju Chang,Athanasios Mouchtaris,Siegfried Kunzmann
発行日 2023-04-05 01:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク