Investigating and Defending Shortcut Learning in Personalized Diffusion Models

要約

パーソナライズされた拡散モデルは、事前トレーニングされたテキストから画像へのモデルを適応させて、最小限のトレーニング データで特定のトピックの画像を生成することで人気を集めています。
ただし、これらのモデルは敵対的なわずかな摂動に対して脆弱であり、破損したデータセットではパフォーマンスの低下につながります。
このような脆弱性はさらに、肖像画などの機密性の高い画像に、不正な生成を防ぐ保護的な混乱を作り出すために悪用されます。
これに応じて、これらの摂動を除去し、発電性能を維持するために、拡散ベースの精製方法が提案されています。
しかし、既存の作品は画像を過剰に純化し、情報の損失を引き起こします。
この論文では、ショートカット学習の視点から、パーソナライズされた拡散モデルの微調整プロセスを詳しく見ていきます。
そして、既存の摂動手法の操作メカニズムを説明する仮説を提案し、摂動された画像が CLIP ベースの潜在空間における元のプロンプトから大幅に逸脱していることを実証します。
微調整中のこのずれにより、モデルがノイズの多いパターンを識別子に関連付けることになり、パフォーマンスが低下します。
これらの洞察に基づいて、浄化を通じてトレーニングのパフォーマンスを維持するための体系的なアプローチを紹介します。
私たちの方法では、まず画像を浄化して、潜在空間内の元の意味論的な意味に再調整します。
次に、クリーンなアイデンティティの学習をノイズの多いパターンから分離するために、ネガティブ トークンを使用した対照学習を導入します。これは、適応摂動に対する強力な潜在的な能力を示します。
私たちの研究は、パーソナライズされた拡散モデルにおけるショートカット学習の脆弱性を明らかにし、将来の保護摂動研究のための確固たる評価フレームワークを提供します。
コードは https://github.com/liuyixin-louis/DiffShortcut で入手できます。

要約(オリジナル)

Personalized diffusion models have gained popularity for adapting pre-trained text-to-image models to generate images of specific topics with minimal training data. However, these models are vulnerable to minor adversarial perturbations, leading to degraded performance on corrupted datasets. Such vulnerabilities are further exploited to craft protective perturbations on sensitive images like portraits that prevent unauthorized generation. In response, diffusion-based purification methods have been proposed to remove these perturbations and retain generation performance. However, existing works turn to over-purifying the images, which causes information loss. In this paper, we take a closer look at the fine-tuning process of personalized diffusion models through the lens of shortcut learning. And we propose a hypothesis explaining the manipulation mechanisms of existing perturbation methods, demonstrating that perturbed images significantly deviate from their original prompts in the CLIP-based latent space. This misalignment during fine-tuning causes models to associate noisy patterns with identifiers, resulting in performance degradation. Based on these insights, we introduce a systematic approach to maintain training performance through purification. Our method first purifies the images to realign them with their original semantic meanings in latent space. Then, we introduce contrastive learning with negative tokens to decouple the learning of clean identities from noisy patterns, which shows a strong potential capacity against adaptive perturbation. Our study uncovers shortcut learning vulnerabilities in personalized diffusion models and provides a firm evaluation framework for future protective perturbation research. Code is available at https://github.com/liuyixin-louis/DiffShortcut.

arxiv情報

著者 Yixin Liu,Ruoxi Chen,Lichao Sun
発行日 2024-08-07 13:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク