Multitaper mel-spectrograms for keyword spotting

要約

キーワードスポッティング(KWS)は、特徴表現の品質に最も敏感な音声認識タスクの一つである。しかし、KWSの研究は伝統的に新しいモデルトポロジーに重点を置いており、特徴抽出のような他の側面にはあまり重点を置いていない。本稿では、KWSのための改善された特徴量を作成するためのマルチテーパー技術の利用について検討する。実験的研究は、様々なテストシナリオ、ウィンドウとパラメータ、データセット、組み込みKWSアプリケーションで一般的に使用されるニューラルネットワークに対して行われた。実験結果は、提案した改良特徴を使用する利点を確認した。

要約(オリジナル)

Keyword spotting (KWS) is one of the speech recognition tasks most sensitive to the quality of the feature representation. However, the research on KWS has traditionally focused on new model topologies, putting little emphasis on other aspects like feature extraction. This paper investigates the use of the multitaper technique to create improved features for KWS. The experimental study is carried out for different test scenarios, windows and parameters, datasets, and neural networks commonly used in embedded KWS applications. Experiment results confirm the advantages of using the proposed improved features.

arxiv情報

著者 Douglas Baptista de Souza,Khaled Jamal Bakri,Fernanda Ferreira,Juliana Inacio
発行日 2024-07-05 17:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.AS パーマリンク