要約
近年、ディープニューラルネットワークの目覚ましい発展により、大変便利になりました。
ただし、非常に効果的なモデルのトレーニング プロセスにはかなりの量のサンプルが必要であり、プライバシー漏洩を伴う不正利用などの潜在的な大きな脅威がもたらされます。
これに応えて、私たちはHiddenSpeakerという名前のフレームワークを提案します。これは、トレーニング音声サンプル内に知覚できない摂動を埋め込み、効率的なトレーニングのために大規模な話者を使用する深層学習ベースの話者検証システムでは学習不可能にするものです。
HiddenSpeaker は、Single-Level Error-Minimizing (SLEM) と呼ばれる簡略化されたエラー最小化手法を利用して、特定の効果的な摂動を生成します。
さらに、人間の知覚を最適化するためにハイブリッド目的関数が採用されており、人間のリスナーと摂動が区別できないことが保証されています。
私たちは、HiddenSpeaker を評価するために、話者検証ドメインの複数の最先端 (SOTA) モデルで広範な実験を実施しています。
私たちの結果は、HiddenSpeaker が学習不可能なサンプルでモデルを欺くだけでなく、摂動の知覚不可能性を強化し、異なるモデル間での強力な伝達性を示していることを示しています。
要約(オリジナル)
In recent years, the remarkable advancements in deep neural networks have brought tremendous convenience. However, the training process of a highly effective model necessitates a substantial quantity of samples, which brings huge potential threats, like unauthorized exploitation with privacy leakage. In response, we propose a framework named HiddenSpeaker, embedding imperceptible perturbations within the training speech samples and rendering them unlearnable for deep-learning-based speaker verification systems that employ large-scale speakers for efficient training. The HiddenSpeaker utilizes a simplified error-minimizing method named Single-Level Error-Minimizing (SLEM) to generate specific and effective perturbations. Additionally, a hybrid objective function is employed for human perceptual optimization, ensuring the perturbation is indistinguishable from human listeners. We conduct extensive experiments on multiple state-of-the-art (SOTA) models in the speaker verification domain to evaluate HiddenSpeaker. Our results demonstrate that HiddenSpeaker not only deceives the model with unlearnable samples but also enhances the imperceptibility of the perturbations, showcasing strong transferability across different models.
arxiv情報
著者 | Zhisheng Zhang,Pengyang Huang |
発行日 | 2024-05-27 02:33:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google