Broadcasted Residual Learning for Efficient Keyword Spotting

要約

キーワード スポッティングは、スマート デバイス上のデバイスのウェイクアップとユーザー インタラクションにおいて重要な役割を果たすため、重要な研究分野です。
ただし、携帯電話などのリソースが限られたデバイスで効率的に動作しながら、エラーを最小限に抑えることは困難です。
小さなモデルサイズと計算負荷で高精度を達成するブロードキャスト残差学習方法を紹介します。
私たちの方法では、ほとんどの残差関数を 1D 時間畳み込みとして構成しながら、時間出力を周波数時間次元に拡張するブロードキャスト残差接続を使用して 2D 畳み込みを一緒に行うこともできます。
この残差マッピングにより、ネットワークは従来の畳み込みニューラル ネットワークよりもはるかに少ない計算量で、有用なオーディオ特徴を効果的に表現できるようになります。
また、ブロードキャスト残差学習に基づく新しいネットワーク アーキテクチャであるブロードキャスト残差ネットワーク (BC-ResNet) を提案し、ターゲット デバイスのリソースに応じてモデルをスケールアップする方法について説明します。
BC-ResNet は、Google 音声コマンド データセット v1 および v2 でそれぞれ 98.0% および 98.7% のトップ 1 精度という最先端の精度を達成し、より少ない計算量とパラメーターを使用して、以前のアプローチを一貫して上回っています。
コードは https://github.com/Qualcomm-AI-research/bcresnet で入手できます。

要約(オリジナル)

Keyword spotting is an important research field because it plays a key role in device wake-up and user interaction on smart devices. However, it is challenging to minimize errors while operating efficiently in devices with limited resources such as mobile phones. We present a broadcasted residual learning method to achieve high accuracy with small model size and computational load. Our method configures most of the residual functions as 1D temporal convolution while still allows 2D convolution together using a broadcasted-residual connection that expands temporal output to frequency-temporal dimension. This residual mapping enables the network to effectively represent useful audio features with much less computation than conventional convolutional neural networks. We also propose a novel network architecture, Broadcasting-residual network (BC-ResNet), based on broadcasted residual learning and describe how to scale up the model according to the target device’s resources. BC-ResNets achieve state-of-the-art 98.0% and 98.7% top-1 accuracy on Google speech command datasets v1 and v2, respectively, and consistently outperform previous approaches, using fewer computations and parameters. Code is available at https://github.com/Qualcomm-AI-research/bcresnet.

arxiv情報

著者 Byeonggeun Kim,Simyung Chang,Jinkyu Lee,Dooyong Sung
発行日 2023-07-05 15:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク