To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images … For Now

要約

拡散モデル (DM) の最近の進歩は、複雑で多様な画像の生成に革命をもたらしました。
ただし、これらのモデルは、有害なコンテンツの作成やデータ著作権の侵害など、潜在的な安全上の問題も引き起こします。
これらの課題に対処するために、安全性を重視したアンラーニング手法を開発する取り組みが行われてきましたが、その能力については疑問が残ります。
この不確実性を埋めるために、これらの安全主導型の学習されていない DM の信頼性を識別するために、敵対的攻撃 (敵対的プロンプトとも呼ばれます) に基づいて構築された評価フレームワークを提案します。
具体的には、私たちの研究では、敵対的プロンプトの生成によって評価される、不要な概念、スタイル、オブジェクトの根絶における未学習 DM の (最悪の場合の) 堅牢性を調査します。
私たちは、UnlearnDiff と呼ばれる新しい敵対的学習アプローチを開発しました。これは、DM の固有の分類機能を活用して敵対的プロンプトの生成を合理化し、画像分類攻撃と同様に DM にとっても簡単にします。
この手法により、敵対的プロンプトの作成が合理化され、画像分類攻撃と同様に生成モデリングでもプロセスが直感的に行えるようになります。
包括的なベンチマークを通じて、複数のタスクにわたる 5 つの一般的な未学習 DM の非学習の堅牢性を評価します。
私たちの結果は、最先端の敵対的プロンプト手法と比較した場合、UnlearnDiff の有効性と効率性を強調しています。
コードは https://github.com/OPTML-Group/Diffusion-MU- Attack で入手できます。
警告: この文書には、本質的に攻撃的な可能性のあるモデル出力が含まれています。

要約(オリジナル)

The recent advances in diffusion models (DMs) have revolutionized the generation of complex and diverse images. However, these models also introduce potential safety hazards, such as the production of harmful content and infringement of data copyrights. Although there have been efforts to create safety-driven unlearning methods to counteract these challenges, doubts remain about their capabilities. To bridge this uncertainty, we propose an evaluation framework built upon adversarial attacks (also referred to as adversarial prompts), in order to discern the trustworthiness of these safety-driven unlearned DMs. Specifically, our research explores the (worst-case) robustness of unlearned DMs in eradicating unwanted concepts, styles, and objects, assessed by the generation of adversarial prompts. We develop a novel adversarial learning approach called UnlearnDiff that leverages the inherent classification capabilities of DMs to streamline the generation of adversarial prompts, making it as simple for DMs as it is for image classification attacks. This technique streamlines the creation of adversarial prompts, making the process as intuitive for generative modeling as it is for image classification assaults. Through comprehensive benchmarking, we assess the unlearning robustness of five prevalent unlearned DMs across multiple tasks. Our results underscore the effectiveness and efficiency of UnlearnDiff when compared to state-of-the-art adversarial prompting methods. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper contains model outputs that may be offensive in nature.

arxiv情報

著者 Yimeng Zhang,Jinghan Jia,Xin Chen,Aochuan Chen,Yihua Zhang,Jiancheng Liu,Ke Ding,Sijia Liu
発行日 2023-10-18 10:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク