要約
話者認識に対する敵対的攻撃の成功は、主にホワイト ボックス シナリオにあります。
ホワイトボックスのサロゲートモデルを攻撃することによって生成された敵対的な声をブラックボックスの被害者モデルに適用する場合、つまり \textit{transfer-based} ブラックボックス攻撃では、敵対的な声の伝達可能性は満足のいくものからほど遠いだけでなく、
解釈の根拠を欠いている。
これらの問題に対処するために、この論文では、修正離散コサイン変換(STA-MDCT)に基づくスペクトル変換攻撃と呼ばれる一般的なフレームワークを提案し、ブラックボックスの犠牲者モデルへの敵対者の声の転送可能性を改善します。
具体的には、まず入力音声に MDCT を適用します。
次に、異なる周波数帯域のエネルギーをわずかに変更して、攻撃の成功に不可欠な時間-周波数ドメインでの敵対的ノイズの顕著な領域をキャプチャします。
時間領域で音声を操作する既存のアプローチとは異なり、提案されたフレームワークは時間-周波数領域で音声を操作するため、攻撃の解釈可能性、転送可能性、および知覚不能性が向上します。
さらに、勾配ベースの攻撃者で実装できます。
モデル アンサンブルの利点を利用するために、STA-MDCT を単一のホワイト ボックス サロゲート モデルだけでなく、サロゲート モデルのアンサンブルでも実装します。
最後に、クラス アクティベーション マップ (CAM) によって敵対者の声の顕著性マップを視覚化します。これは、話者認識における転送ベースの攻撃の解釈可能な基礎を初めて提供します。
5 人の代表的な攻撃者との広範な比較結果は、CAM の視覚化が STA-MDCT の有効性と比較方法の弱点を明確に説明していることを示しています。
提案された方法は、比較方法よりも大幅に優れています。
要約(オリジナル)
The success of adversarial attacks to speaker recognition is mainly in white-box scenarios. When applying the adversarial voices that are generated by attacking white-box surrogate models to black-box victim models, i.e. \textit{transfer-based} black-box attacks, the transferability of the adversarial voices is not only far from satisfactory, but also lacks interpretable basis. To address these issues, in this paper, we propose a general framework, named spectral transformation attack based on modified discrete cosine transform (STA-MDCT), to improve the transferability of the adversarial voices to a black-box victim model. Specifically, we first apply MDCT to the input voice. Then, we slightly modify the energy of different frequency bands for capturing the salient regions of the adversarial noise in the time-frequency domain that are critical to a successful attack. Unlike existing approaches that operate voices in the time domain, the proposed framework operates voices in the time-frequency domain, which improves the interpretability, transferability, and imperceptibility of the attack. Moreover, it can be implemented with any gradient-based attackers. To utilize the advantage of model ensembling, we not only implement STA-MDCT with a single white-box surrogate model, but also with an ensemble of surrogate models. Finally, we visualize the saliency maps of adversarial voices by the class activation maps (CAM), which offers an interpretable basis to transfer-based attacks in speaker recognition for the first time. Extensive comparison results with five representative attackers show that the CAM visualization clearly explains the effectiveness of STA-MDCT, and the weaknesses of the comparison methods; the proposed method outperforms the comparison methods by a large margin.
arxiv情報
著者 | Jiadi Yao,Hong Luo,Xiao-Lei Zhang |
発行日 | 2023-02-21 14:12:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google