要約
カスタマイズされたビジュアル コンテンツに対する需要の高まりにより、パーソナライズされたテキストから画像への (T2I) 普及モデルが台頭しています。
その驚くべき潜在力にもかかわらず、悪意のある目的に悪用されると重大なプライバシー リスクが生じます。
この論文では、T2I 拡散モデルのクロスアテンション層のみをターゲットとする、新規かつ効率的な敵対的攻撃手法である選択的注意操作による概念保護 (CoPSAM) を提案します。
この目的のために、私たちは、敵対的な対応物を取得するために、クリーンなサンプルに追加される知覚できないノイズを慎重に構築します。
これは、微調整プロセス中に、ユーザー固有のトークンとクラス固有のトークンのそれぞれの対応するクロスアテンション マップ間の不一致を最大化することによって取得されます。
CelebA-HQ 顔画像データセットのサブセットに対する実験的検証により、私たちのアプローチが既存の方法よりも優れていることが実証されました。
これに加えて、私たちの方法には定性的評価から得られた 2 つの重要な利点があります。(i) 競合他社よりも低いノイズ レベルで優れた保護結果が得られます。
(ii) コンテンツを不正使用から保護し、それによって個人の身元を潜在的な悪用から保護します。
要約(オリジナル)
The growing demand for customized visual content has led to the rise of personalized text-to-image (T2I) diffusion models. Despite their remarkable potential, they pose significant privacy risk when misused for malicious purposes. In this paper, we propose a novel and efficient adversarial attack method, Concept Protection by Selective Attention Manipulation (CoPSAM) which targets only the cross-attention layers of a T2I diffusion model. For this purpose, we carefully construct an imperceptible noise to be added to clean samples to get their adversarial counterparts. This is obtained during the fine-tuning process by maximizing the discrepancy between the corresponding cross-attention maps of the user-specific token and the class-specific token, respectively. Experimental validation on a subset of CelebA-HQ face images dataset demonstrates that our approach outperforms existing methods. Besides this, our method presents two important advantages derived from the qualitative evaluation: (i) we obtain better protection results for lower noise levels than our competitors; and (ii) we protect the content from unauthorized use thereby protecting the individual’s identity from potential misuse.
arxiv情報
著者 | Xide Xu,Muhammad Atif Butt,Sandesh Kamath,Bogdan Raducanu |
発行日 | 2024-11-25 14:39:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google