要約
音声分類は、音声コマンドや音声イベントなどの音声信号を認識することを目的としています。
ただし、現在のオーディオ分類器は摂動や敵対的な攻撃の影響を受けやすくなっています。
さらに、実際の音声分類タスクでは、ラベル付きデータが限られていることがよくあります。
これらのギャップを埋めるために、以前の研究では、コンピューター ビジョン用の最初の層 (つまり、LCANets) のローカル競合アルゴリズム (LCA) を介したスパース コーディングを備えた、神経にヒントを得た畳み込みニューラル ネットワーク (CNN) を開発しました。
LCANets は教師あり学習と教師なし学習を組み合わせて学習し、ラベル付きサンプルへの依存を減らします。
聴覚皮質もスパースであるという事実に動機付けられ、私たちは LCANets を音声認識タスクに拡張し、LCA を介して複数の層でスパース コーディングを実行する CNN である LCANets++ を導入しました。
我々は、LCANets++が、バックグラウンドノイズなどの摂動や、回避攻撃や高速勾配符号(FGSM)攻撃などのブラックボックス攻撃やホワイトボックス攻撃に対して、標準的なCNNやLCANetsよりも堅牢であることを実証します。
要約(オリジナル)
Audio classification aims at recognizing audio signals, including speech commands or sound events. However, current audio classifiers are susceptible to perturbations and adversarial attacks. In addition, real-world audio classification tasks often suffer from limited labeled data. To help bridge these gaps, previous work developed neuro-inspired convolutional neural networks (CNNs) with sparse coding via the Locally Competitive Algorithm (LCA) in the first layer (i.e., LCANets) for computer vision. LCANets learn in a combination of supervised and unsupervised learning, reducing dependency on labeled samples. Motivated by the fact that auditory cortex is also sparse, we extend LCANets to audio recognition tasks and introduce LCANets++, which are CNNs that perform sparse coding in multiple layers via LCA. We demonstrate that LCANets++ are more robust than standard CNNs and LCANets against perturbations, e.g., background noise, as well as black-box and white-box attacks, e.g., evasion and fast gradient sign (FGSM) attacks.
arxiv情報
著者 | Sayanton V. Dibbo,Juston S. Moore,Garrett T. Kenyon,Michael A. Teti |
発行日 | 2024-03-27 14:47:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google