Improving Transferable Targeted Adversarial Attack via Normalized Logit Calibration and Truncated Feature Mixing

要約

このペーパーは、攻撃の成功率が比較的低い標的型攻撃における敵対的サンプルの転送可能性を高めることを目的としています。
この目的を達成するために、損失と機能の側面から目標とする転送可能性を改善するための 2 つの異なる手法を提案します。
まず、これまでのアプローチでは、標的型攻撃で使用されるロジット キャリブレーションは、サンプル間の標的クラスと非標的クラス間のロジット マージンに主に焦点を当てており、ロジットの標準偏差は無視されていました。
対照的に、ロジットマージンとロジットの標準偏差を一緒に考慮する新しい正規化ロジット校正方法を導入します。
このアプローチはロジットを効果的に校正し、目標とする転送可能性を高めます。
第二に、これまでの研究では、最適化中にクリーンなサンプルの特徴を混合すると、転写性が大幅に向上する可能性があることが実証されています。
これに基づいて、ソース トレーニング モデルの影響を軽減するために切り詰められた特徴混合方法をさらに調査し、さらなる改善をもたらします。
切り捨てられた特徴は、クリーン サンプルの高レベル畳み込み層から分解された最大の特異値に関連付けられたランク 1 特徴を削除することによって決定されます。
ImageNet-Compatibility および CIFAR-10 データセットに対して行われた広範な実験により、私たちが提案する 2 つのコンポーネントの個別および相互の利点が実証され、ブラックボックス標的型攻撃において最先端の手法を大幅に上回ります。

要約(オリジナル)

This paper aims to enhance the transferability of adversarial samples in targeted attacks, where attack success rates remain comparatively low. To achieve this objective, we propose two distinct techniques for improving the targeted transferability from the loss and feature aspects. First, in previous approaches, logit calibrations used in targeted attacks primarily focus on the logit margin between the targeted class and the untargeted classes among samples, neglecting the standard deviation of the logit. In contrast, we introduce a new normalized logit calibration method that jointly considers the logit margin and the standard deviation of logits. This approach effectively calibrates the logits, enhancing the targeted transferability. Second, previous studies have demonstrated that mixing the features of clean samples during optimization can significantly increase transferability. Building upon this, we further investigate a truncated feature mixing method to reduce the impact of the source training model, resulting in additional improvements. The truncated feature is determined by removing the Rank-1 feature associated with the largest singular value decomposed from the high-level convolutional layers of the clean sample. Extensive experiments conducted on the ImageNet-Compatible and CIFAR-10 datasets demonstrate the individual and mutual benefits of our proposed two components, which outperform the state-of-the-art methods by a large margin in black-box targeted attacks.

arxiv情報

著者 Juanjuan Weng,Zhiming Luo,Shaozi Li
発行日 2024-05-10 09:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク