要約
基礎モデルは、さまざまなタスクで印象的なパフォーマンスを示していますが、敵対的なインプットに対して脆弱なままです。
現在の研究では、モデルの堅牢性を高めるためのさまざまなアプローチを調査し、拡散除去されたスムージングが特に有望な手法として出現しています。
この方法では、モデル推論の前に、前処理された拡散モデルを使用して入力を前処理します。
しかし、その有効性は、分類を超えてほとんど未踏のままです。
3つの異なる敵対的攻撃アルゴリズムの下で、4つの異なる下流タスクを持つ3つのデータセットを分析することにより、このギャップに対処することを目指しています。
私たちの調査結果は、基礎モデルが従来の変換に対する回復力を維持している一方で、歪みのない歪みのない画像をきれいにするために高ノイズ拡散除去を適用すると、パフォーマンスは57%高くなります。
低ノイズ拡散設定はパフォーマンスを維持しますが、すべての攻撃タイプで適切な保護を提供できません。
さらに、拡散プロセス自体を特に標的とする新しい攻撃戦略を導入し、低雑音体制の防御を回避できます。
我々の結果は、敵対的な堅牢性とパフォーマンスのトレードオフが依然として対処するべき挑戦であることを示唆しています。
要約(オリジナル)
While foundation models demonstrate impressive performance across various tasks, they remain vulnerable to adversarial inputs. Current research explores various approaches to enhance model robustness, with Diffusion Denoised Smoothing emerging as a particularly promising technique. This method employs a pretrained diffusion model to preprocess inputs before model inference. Yet, its effectiveness remains largely unexplored beyond classification. We aim to address this gap by analyzing three datasets with four distinct downstream tasks under three different adversarial attack algorithms. Our findings reveal that while foundation models maintain resilience against conventional transformations, applying high-noise diffusion denoising to clean images without any distortions significantly degrades performance by as high as 57%. Low-noise diffusion settings preserve performance but fail to provide adequate protection across all attack types. Moreover, we introduce a novel attack strategy specifically targeting the diffusion process itself, capable of circumventing defenses in the low-noise regime. Our results suggest that the trade-off between adversarial robustness and performance remains a challenge to be addressed.
arxiv情報
著者 | Yury Belousov,Brian Pulfer,Vitaliy Kinakh,Slava Voloshynovskiy |
発行日 | 2025-05-21 14:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google