Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning

要約

Amazon Echo や Google Home などのスマート スピーカー音声アシスタント (VA) は、スマート ホーム デバイスやモノのインターネット (IoT) テクノロジーとシームレスに統合されているため、広く採用されています。
これらの VA サービスは、特に私たちの音声へのアクセスにより、プライバシーに関する懸念を引き起こします。
この研究では、そのようなユースケースの 1 つである、音声感情認識 (SER) を介したユーザーの感情の無許可かつ責任のない監視を検討しています。
この文書では、ユーザーの音声の書き起こしに関連する部分を保持しながら、ユーザーの感情情報をマスクする付加的なノイズを作成するソリューションである DARE-GP について説明します。
DARE-GP は、制約付き遺伝的プログラミング アプローチを使用してターゲット ユーザーの感情的内容を表すスペクトル周波数特性を学習し、プライバシー保護を提供する普遍的な敵対的な音声摂動を生成することでこれを実現します。
既存の作品とは異なり、DARE-GP は、a) これまで聞いたことのない発話のリアルタイム保護、b) 以前に聞いたことのないブラックボックス SER 分類子に対する保護、c) 音声転写を保護しながらの保護、および d) 現実的な音響環境での保護を提供します。
さらに、この回避は、知識のある敵が採用する防御に対して堅牢です。
この研究の評価は、ウェイクワード システムと統合された小型フォームファクタ (ラズベリー パイ) を使用した 2 台の既製の商用スマート スピーカーに対する音響評価で最高潮に達し、現実世界のリアルタイムの有効性を評価します。
展開。

要約(オリジナル)

Smart speaker voice assistants (VAs) such as Amazon Echo and Google Home have been widely adopted due to their seamless integration with smart home devices and the Internet of Things (IoT) technologies. These VA services raise privacy concerns, especially due to their access to our speech. This work considers one such use case: the unaccountable and unauthorized surveillance of a user’s emotion via speech emotion recognition (SER). This paper presents DARE-GP, a solution that creates additive noise to mask users’ emotional information while preserving the transcription-relevant portions of their speech. DARE-GP does this by using a constrained genetic programming approach to learn the spectral frequency traits that depict target users’ emotional content, and then generating a universal adversarial audio perturbation that provides this privacy protection. Unlike existing works, DARE-GP provides: a) real-time protection of previously unheard utterances, b) against previously unseen black-box SER classifiers, c) while protecting speech transcription, and d) does so in a realistic, acoustic environment. Further, this evasion is robust against defenses employed by a knowledgeable adversary. The evaluations in this work culminate with acoustic evaluations against two off-the-shelf commercial smart speakers using a small-form-factor (raspberry pi) integrated with a wake-word system to evaluate the efficacy of its real-world, real-time deployment.

arxiv情報

著者 Brian Testa,Yi Xiao,Harshit Sharma,Avery Gump,Asif Salekin
発行日 2023-08-01 14:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS パーマリンク