要約
拡散ベースのテキストから画像へのモデルは、インターネットから収集された大規模なデータセットでトレーニングされており、許容できない概念 (著作権侵害や安全でないなど) が含まれている可能性があります。
受け入れられない概念を含む画像の生成を防止し、受け入れられる概念の実用性を維持し、敵対的プロンプトによる回避に対して堅牢な概念除去技術 (CRT) が必要です。
従来の CRT は、これらすべての要件を同時に満たすものはありませんでした。
Contrastive Language-Image Pre-Training (CLIP) に基づいた最初の堅牢なコンセプト フィルターである Espresso を紹介します。
受け入れられない概念と受け入れられる概念の両方のテキスト埋め込みに対する埋め込みの距離を使用して、生成された画像内の受け入れられない概念を識別するように CLIP を構成します。
これにより、実用的な画像埋め込みとの組み合わせを維持しながら、許容できない概念と許容可能な概念のテキスト埋め込みを分離することで、堅牢性を微調整できます。
さまざまな CRT とそれらに対する攻撃を評価するパイプラインを提示し、Espresso が実用性を維持しながら、以前の CRT よりも効果的かつ堅牢であることを示します。
要約(オリジナル)
Diffusion based text-to-image models are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). We need concept removal techniques (CRTs) which are effective in preventing the generation of images with unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). We configure CLIP to identify unacceptable concepts in generated images using the distance of their embeddings to the text embeddings of both unacceptable and acceptable concepts. This lets us fine-tune for robustness by separating the text embeddings of unacceptable and acceptable concepts while preserving their pairing with image embeddings for utility. We present a pipeline to evaluate various CRTs, attacks against them, and show that Espresso, is more effective and robust than prior CRTs, while retaining utility.
arxiv情報
著者 | Anudeep Das,Vasisht Duddu,Rui Zhang,N. Asokan |
発行日 | 2024-09-09 16:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google