Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

要約

音声ベースのインターフェイスは、ウェイクアップ ワード メカニズムに依存してデバイスとの通信を開始します。
ただし、堅牢でエネルギー効率が高く、高速な検出を実現することは依然として課題です。
このペーパーでは、時間的アライメントでデータを強化し、多重解像度の 2 つのフェーズに基づく検出を使用することで、これらの実際の制作ニーズに対応します。
オーディオ ストリームのリアルタイム処理のための軽量のオンデバイス モデルと、検出を洗練する異種アーキテクチャのアンサンブルであるサーバー側の検証モデルの 2 つのモデルが採用されています。
このスキームにより、2 つの動作点の最適化が可能になります。
プライバシーを保護するために、音声機能は生の音声ではなくクラウドに送信されます。
この研究では、特徴抽出のためのさまざまなパラメトリック構成を調査し、オンデバイス検出用と検証モデル用に 1 つを選択しました。
さらに、13 の異なるオーディオ分類器がパフォーマンスと推論時間の観点から比較されました。
提案されたアンサンブルは、あらゆるノイズ条件において、より強力な分類器よりも優れた性能を発揮します。

要約(オリジナル)

Voice-based interfaces rely on a wake-up word mechanism to initiate communication with devices. However, achieving a robust, energy-efficient, and fast detection remains a challenge. This paper addresses these real production needs by enhancing data with temporal alignments and using detection based on two phases with multi-resolution. It employs two models: a lightweight on-device model for real-time processing of the audio stream and a verification model on the server-side, which is an ensemble of heterogeneous architectures that refine detection. This scheme allows the optimization of two operating points. To protect privacy, audio features are sent to the cloud instead of raw audio. The study investigated different parametric configurations for feature extraction to select one for on-device detection and another for the verification model. Furthermore, thirteen different audio classifiers were compared in terms of performance and inference time. The proposed ensemble outperforms our stronger classifier in every noise condition.

arxiv情報

著者 Fernando López,Jordi Luque,Carlos Segura,Pablo Gómez
発行日 2023-10-17 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク