Exploring Representation Learning for Small-Footprint Keyword Spotting

要約

この論文では、低リソース キーワード スポッティング (KWS) の表現学習について調査します。
KWS の主な課題は、ラベル付けされたデータが限られていることと、使用できるデバイス リソースが限られていることです。
これらの課題に対処するために、自己教師あり対照学習と事前トレーニング済みモデルを使用した自己トレーニングによる KWS の表現学習を調査します。
第一に、ローカル/グローバル コントラスト シャム ネットワーク (LGCSiam) は、グラウンド トゥルースを必要とせずに提案されたローカル/グローバル コントラスト損失によって、同様のオーディオ サンプラーの同様の発話レベルの表現を学習するように設計されています。
次に、KWS モデルにフレームレベルの音響表現を強制的に学習させるために、自己教師ありの事前トレーニング済み Wav2Vec 2.0 モデルが制約モジュール (WVC) として適用されます。
LGCSiam および WVC モジュールにより、提案されたフットプリントの小さい KWS モデルをラベルなしデータで事前トレーニングできます。
音声コマンド データセットの実験では、自己トレーニング WVC モジュールと自己教師あり LGCSiam モジュールが、特に小さなラベル付きデータセットでのトレーニングの場合に、精度を大幅に向上させることが示されています。

要約(オリジナル)

In this paper, we investigate representation learning for low-resource keyword spotting (KWS). The main challenges of KWS are limited labeled data and limited available device resources. To address those challenges, we explore representation learning for KWS by self-supervised contrastive learning and self-training with pretrained model. First, local-global contrastive siamese networks (LGCSiam) are designed to learn similar utterance-level representations for similar audio samplers by proposed local-global contrastive loss without requiring ground-truth. Second, a self-supervised pretrained Wav2Vec 2.0 model is applied as a constraint module (WVC) to force the KWS model to learn frame-level acoustic representations. By the LGCSiam and WVC modules, the proposed small-footprint KWS model can be pretrained with unlabeled data. Experiments on speech commands dataset show that the self-training WVC module and the self-supervised LGCSiam module significantly improve accuracy, especially in the case of training on a small labeled dataset.

arxiv情報

著者 Fan Cui,Liyong Guo,Quandong Wang,Peng Gao,Yujun Wang
発行日 2023-03-20 07:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク