Speech Understanding on Tiny Devices with A Learning Cache

要約

この論文では、マイクロコントローラーのような組み込みデバイス上の音声言語理解 (SLU) について取り上げ、新しい方法でデバイス上の実行とクラウド オフロードを統合します。
デバイスへの音声入力の時間的局所性を活用し、それに応じて最近の SLU 推論を再利用します。
私たちのアイデアはシンプルです。デバイスに受信入力をキャッシュされた結果と照合させ、キャッシュされた結果と一致しない入力のみを完全な推論のためにクラウドにオフロードします。
ただし、このアイデアの実現は簡単ではありません。デバイスは、堅牢かつ低コストの方法で音響特徴を比較する必要があります。
この目的を達成するために、小型デバイス用の音声キャッシュである SpeechCache (または SC) を紹介します。
これは、音声入力を 2 つの表現レベルで照合します。最初はクラスター化された生のサウンド単位のシーケンスとして、次に音素のシーケンスとして照合します。
2 つの表現を連携させて使用すると、コストと効率の間で相補的なトレードオフが実現します。
精度をさらに高めるために、キャッシュはパーソナライズを学習します。不一致でオフロードされた入力を使用して、クラウドの支援を受けてデバイスの特徴抽出器を継続的に微調整します。
既製の STM32 マイクロコントローラーに SC を実装します。
完全な実装のメモリ使用量は 2MB と小さいです。
難しい音声ベンチマークで評価すると、当社のシステムはデバイス上の入力の 45% ~ 90% を解決し、一般的なクラウド音声認識サービスにオフロードする場合と比較して、平均遅延を最大 80% 削減します。
私たちが提案する SC によってもたらされる利点は、騒々しい環境、コールド キャッシュ、または多数のユーザーが共有する 1 台のデバイスなど、敵対的な設定でも顕著です。

要約(オリジナル)

This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We leverage temporal locality in the speech inputs to a device and reuse recent SLU inferences accordingly. Our idea is simple: let the device match incoming inputs against cached results, and only offload inputs not matched to any cached ones to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust yet low-cost way. To this end, we present SpeechCache (or SC), a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by sequences of clustered raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary tradeoffs between cost and efficiency. To boost accuracy even further, our cache learns to personalize: with the mismatched and then offloaded inputs, it continuously finetunes the device’s feature extractors with the assistance of the cloud. We implement SC on an off-the-shelf STM32 microcontroller. The complete implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%-90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech recognition services. The benefit brought by our proposed SC is notable even in adversarial settings – noisy environments, cold cache, or one device shared by a number of users.

arxiv情報

著者 Afsara Benazir,Zhiming Xu,Felix Xiaozhu Lin
発行日 2024-05-08 17:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク