Boosting keyword spotting through on-device learnable user speech characteristics

要約

常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッティング システムは、目に見えない推論条件で展開される場合、オフラインでトレーニングされた分類器の精度を高めるためにオンサイトで調整する必要があります。
ターゲット ユーザーの音声の特性に適応するには、多くのドメイン内サンプルが必要ですが、現実のシナリオでは利用できないことがよくあります。
さらに、現在のオンデバイス学習技術は、計算量が多くメモリを大量に消費するバックボーン更新スキームに依存しているため、常時オンのバッテリ駆動デバイスには適していません。
この研究では、事前トレーニングされたバックボーンとユーザーの音声特性を学習するユーザー認識埋め込みで構成される、新しいオンデバイス学習アーキテクチャを提案します。
このように生成された特徴は融合され、入力発話の分類に使用されます。
目に見えない話者によって生成されるドメインのシフトについては、Google 音声コマンド データセットの 35 クラスの問題に基づいて、ユーザー予測の安価な更新を通じて、エラー率が 30.1% から 24.3% に最大 19% 減少することを測定しました。
さらに、サンプルやクラスが少ない学習条件において、提案したアーキテクチャの数ショット学習機能を実証します。
オンデバイストレーニングに必要な 23.7 k パラメータとエポックあたり 1 MFLOP を備えたシステムは、バッテリー駆動のマイクロコントローラーを対象とした TinyML アプリケーションに実行可能です。

要約(オリジナル)

Keyword spotting systems for always-on TinyML-constrained applications require on-site tuning to boost the accuracy of offline trained classifiers when deployed in unseen inference conditions. Adapting to the speech peculiarities of target users requires many in-domain samples, often unavailable in real-world scenarios. Furthermore, current on-device learning techniques rely on computationally intensive and memory-hungry backbone update schemes, unfit for always-on, battery-powered devices. In this work, we propose a novel on-device learning architecture, composed of a pretrained backbone and a user-aware embedding learning the user’s speech characteristics. The so-generated features are fused and used to classify the input utterance. For domain shifts generated by unseen speakers, we measure error rate reductions of up to 19% from 30.1% to 24.3% based on the 35-class problem of the Google Speech Commands dataset, through the inexpensive update of the user projections. We moreover demonstrate the few-shot learning capabilities of our proposed architecture in sample- and class-scarce learning conditions. With 23.7 kparameters and 1 MFLOP per epoch required for on-device training, our system is feasible for TinyML applications aimed at battery-powered microcontrollers.

arxiv情報

著者 Cristian Cioflan,Lukas Cavigelli,Luca Benini
発行日 2024-03-12 16:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク