要約
強力な拡散モデル(DMS)の安全性に対する懸念が高まっています。なぜなら、不適切で安全でない(NSFW)コンテンツを生成するために誤用されることが多いため、忘れられたい人の著作権で保護された材料またはデータを生成するためです。
多くの既存の方法は、テキストベースのネガティブプロンプトに大きく依存しているか、DMSを広範囲に再調整して特定の機能またはサンプルを排除することにより、これらの問題に取り組んでいます。
この論文では、根本的に異なるアプローチを採用し、否定セット(例:安全でない画像、著作権データ、またはデータ分布の特定の領域を回避するためにDMを再訓練または微調整する必要なく回避することにより、サンプリングの軌跡を直接変更します。
私たちは、安全でないと予想される非除去されたサンプルと安全でないサンプルとの関係を正式に導き出し、最終的なサンプルが否定されることを保証する$ \ textit {safe} $ denoiserにつながります。
派生に触発されて、テキストコンディショナル、クラス条件、および無条件の画像生成シナリオのデータ分布の否定領域を回避しながら、高品質のサンプルを成功裏に生成する実用的なアルゴリズムを開発します。
これらの結果は、DMSをより安全に使用するためのトレーニングなしの安全な除去者の大きな可能性を示唆しています。
要約(オリジナル)
There is growing concern over the safety of powerful diffusion models (DMs), as they are often misused to produce inappropriate, not-safe-for-work (NSFW) content or generate copyrighted material or data of individuals who wish to be forgotten. Many existing methods tackle these issues by heavily relying on text-based negative prompts or extensively retraining DMs to eliminate certain features or samples. In this paper, we take a radically different approach, directly modifying the sampling trajectory by leveraging a negation set (e.g., unsafe images, copyrighted data, or datapoints needed to be excluded) to avoid specific regions of data distribution, without needing to retrain or fine-tune DMs. We formally derive the relationship between the expected denoised samples that are safe and those that are not safe, leading to our $\textit{safe}$ denoiser which ensures its final samples are away from the area to be negated. Inspired by the derivation, we develop a practical algorithm that successfully produces high-quality samples while avoiding negation areas of the data distribution in text-conditional, class-conditional, and unconditional image generation scenarios. These results hint at the great potential of our training-free safe denoiser for using DMs more safely.
arxiv情報
著者 | Mingyu Kim,Dongjun Kim,Amman Yusuf,Stefano Ermon,Mijung Park |
発行日 | 2025-06-12 16:45:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google