ALMA: Aggregated Lipschitz Maximization Attack on Auto-encoders

要約

重要なアプリケーションでのディープオートエンコーダー(AE)の広範な使用にもかかわらず、それらの敵対的堅牢性は分類モデルと比較して比較的目立たないままです。
AEの堅牢性は、そのコンポーネントのリプシッツの境界によって特徴付けられます。
ホワイトボックス攻撃に基づく既存の堅牢性評価フレームワークは、AESの中間の不条件層の脆弱性を完全に活用していません。
認知されていない規範に縛られた添加剤の摂動を最適化して出力損傷を最大化するというコンテキストでは、既存の方法はネットワーク全体の敵対的な損失勾配を効果的に伝播するために苦労し、しばしば効果的でない摂動に収束します。
これに対処するために、攻撃の最適化中に損失勾配情報伝播を強化することにより、局所リプシッツの境界の領域に効果的に誘導する新しいレイヤーコンディショニングベースの敵対的最適化目標を提案します。
私たちは、最先端のAEに関する広範な実験を通じて、私たちの敵対的な目的がより強力な攻撃をもたらし、普遍的なシナリオとサンプル固有のシナリオの両方で既存の方法を上回ることを実証します。
この攻撃に対する防御方法として、敵対的な例の影響を軽減する推論時間攻撃時代に訓練された防衛プラグインを導入します。

要約(オリジナル)

Despite the extensive use of deep autoencoders (AEs) in critical applications, their adversarial robustness remains relatively underexplored compared to classification models. AE robustness is characterized by the Lipschitz bounds of its components. Existing robustness evaluation frameworks based on white-box attacks do not fully exploit the vulnerabilities of intermediate ill-conditioned layers in AEs. In the context of optimizing imperceptible norm-bounded additive perturbations to maximize output damage, existing methods struggle to effectively propagate adversarial loss gradients throughout the network, often converging to less effective perturbations. To address this, we propose a novel layer-conditioning-based adversarial optimization objective that effectively guides the adversarial map toward regions of local Lipschitz bounds by enhancing loss gradient information propagation during attack optimization. We demonstrate through extensive experiments on state-of-the-art AEs that our adversarial objective results in stronger attacks, outperforming existing methods in both universal and sample-specific scenarios. As a defense method against this attack, we introduce an inference-time adversarially trained defense plugin that mitigates the effects of adversarial examples.

arxiv情報

著者 Chethan Krishnamurthy Ramanaik,Arjun Roy,Eirini Ntoutsi
発行日 2025-05-06 15:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク