Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models

要約

テキストから画像への拡散(T2I)モデルは急速に進歩し、テキストによるプロンプトを条件とした高品質の画像生成が可能になった。しかし、パーソナライゼーションのために事前に訓練されたモデルを微調整する傾向が強まっているため、データセットの不正使用に対する深刻な懸念が生じている。これに対処するため、バックドア技術を使用して微調整データセットに透かしを埋め込むデータセット所有者検証(DOV)が解決策として浮上している。これらの透かしは、良性のサンプルの下では不活性であるが、トリガーされると所有者指定の出力を生成する。T2I拡散モデルに対するDOVの有望性にもかかわらず、著作権回避攻撃(CEA)に対する頑健性は未解明のままである。本論文では、攻撃者がCEAによってこれらのメカニズムを迂回し、電子透かしの入ったデータセットで学習したモデルであっても電子透かしを回避できるようにする方法を探る。我々は、T2I拡散モデルのDOVを弱体化させるために特別に設計された最初の著作権回避攻撃(すなわちCEAT2I)を提案する。具体的には、我々のCEAT2Iは、電子透かし入りサンプルの検出、トリガーの識別、効率的な電子透かしの緩和という3つの段階から構成される。我々のアプローチを推進する重要な洞察は、T2Iモデルは微調整の間、透かし入りサンプルに対してより速い収束を示すということであり、これは中間的な特徴偏差を通して明らかになる。これを利用して、CEAT2Iは透かし入りサンプルを確実に検出することができる。次に、検出された電子透かしサンプルのプロンプトからトークンを繰り返し除去し、中間特徴量のシフトを監視して、正確なトリガートークンを突き止める。最後に、注入された透かしを除去するために閉形式の概念消去法を採用する。広範な実験により、我々のCEAT2Iはモデルの性能を維持しながら、DOVメカニズムを効果的に回避することが示された。

要約(オリジナル)

Text-to-image (T2I) diffusion models have rapidly advanced, enabling high-quality image generation conditioned on textual prompts. However, the growing trend of fine-tuning pre-trained models for personalization raises serious concerns about unauthorized dataset usage. To combat this, dataset ownership verification (DOV) has emerged as a solution, embedding watermarks into the fine-tuning datasets using backdoor techniques. These watermarks remain inactive under benign samples but produce owner-specified outputs when triggered. Despite the promise of DOV for T2I diffusion models, its robustness against copyright evasion attacks (CEA) remains unexplored. In this paper, we explore how attackers can bypass these mechanisms through CEA, allowing models to circumvent watermarks even when trained on watermarked datasets. We propose the first copyright evasion attack (i.e., CEAT2I) specifically designed to undermine DOV in T2I diffusion models. Concretely, our CEAT2I comprises three stages: watermarked sample detection, trigger identification, and efficient watermark mitigation. A key insight driving our approach is that T2I models exhibit faster convergence on watermarked samples during the fine-tuning, evident through intermediate feature deviation. Leveraging this, CEAT2I can reliably detect the watermarked samples. Then, we iteratively ablate tokens from the prompts of detected watermarked samples and monitor shifts in intermediate features to pinpoint the exact trigger tokens. Finally, we adopt a closed-form concept erasure method to remove the injected watermark. Extensive experiments show that our CEAT2I effectively evades DOV mechanisms while preserving model performance.

arxiv情報

著者 Kuofeng Gao,Yufei Zhu,Yiming Li,Jiawang Bai,Yong Yang,Zhifeng Li,Shu-Tao Xia
発行日 2025-05-05 17:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク