To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement

要約

タイトル: 連続した改善によるキーワードの誤設定の軽減

要約:
– キーワードスポッティングシステムは、オーディオストリームからキーワードを検出する。
– それらのシステムの最も難しいタスクの1つは、キーワードが発せられていないにもかかわらず、システムが誤ってキーワードを登録する偽陽性の削減である。
– 本論文では、全確率の法則から導かれる、この問題に対するシンプルで優雅な解決策を提案する。
– 我々は、入力オーディオが音声であるかどうかを最初に分類し、続いて入力がキーワードに似ているかどうかを、最後にどのキーワードが発せられたかを分類する「Successive Refinement」により、既存の深層キーワードスポッティングメカニズムを改善できることを示している。
– サイズ13Kパラメータから2.41Mパラメータまでの複数のモデルに対し、私たちの提案手法は、ドメイン内の保留された FA データにおいて8倍、外部ドメイン(OOD)の FA データにおいては7倍までの FA の削減に対し有効であることを示している。
– さらに、私たちの提案手法は、どの深層キーワードスポッティングモデルにも「プラグイン・アンド・プレイ」で適用できる。

要約(オリジナル)

Keyword spotting systems continuously process audio streams to detect keywords. One of the most challenging tasks in designing such systems is to reduce False Alarm (FA) which happens when the system falsely registers a keyword despite the keyword not being uttered. In this paper, we propose a simple yet elegant solution to this problem that follows from the law of total probability. We show that existing deep keyword spotting mechanisms can be improved by Successive Refinement, where the system first classifies whether the input audio is speech or not, followed by whether the input is keyword-like or not, and finally classifies which keyword was uttered. We show across multiple models with size ranging from 13K parameters to 2.41M parameters, the successive refinement technique reduces FA by up to a factor of 8 on in-domain held-out FA data, and up to a factor of 7 on out-of-domain (OOD) FA data. Further, our proposed approach is ‘plug-and-play’ and can be applied to any deep keyword spotting model.

arxiv情報

著者 Yashas Malur Saidutta,Rakshith Sharma Srinivasa,Ching-Hua Lee,Chouchang Yang,Yilin Shen,Hongxia Jin
発行日 2023-04-06 23:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク