要約
拡散ベースのテキストから画像モデルは、インターネットから削られた大きなデータセットでトレーニングされており、容認できない概念(著作権の侵害や安全でない)を含む可能性があります。
I)容認できない概念を持つ画像の生成を防止するのに効果的な概念除去技術(CRTS)、ii)許容可能な概念でのユーティリティプレゼント、およびiii)敵対的なプロンプトのある回避に対して堅牢です。
これらすべての要件を同時に満たす以前のCRTはありません。
対照的な言語イメージのプリトレーニング(クリップ)に基づいて、最初の堅牢なコンセプトフィルターであるEspressoを紹介します。
生成された画像の埋め込み間の距離を使用して、受け入れられない概念と許容可能な概念の両方のテキスト埋め込みを使用することにより、容認できない概念を特定します。
これにより、ユーティリティを維持しながら、受け入れられない許容可能な概念のテキスト埋め込みを分離することにより、堅牢性を微調整できます。
さまざまなCRTを評価するためのパイプラインを提示して、エスプレッソはユーティリティを保持しながら以前のCRTよりも効果的で堅牢であることを示します。
要約(オリジナル)
Diffusion based text-to-image models are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright-infringing or unsafe). We need concept removal techniques (CRTs) which are i) effective in preventing the generation of images with unacceptable concepts, ii) utility-preserving on acceptable concepts, and, iii) robust against evasion with adversarial prompts. No prior CRT satisfies all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). We identify unacceptable concepts by using the distance between the embedding of a generated image to the text embeddings of both unacceptable and acceptable concepts. This lets us fine-tune for robustness by separating the text embeddings of unacceptable and acceptable concepts while preserving utility. We present a pipeline to evaluate various CRTs to show that Espresso is more effective and robust than prior CRTs, while retaining utility.
arxiv情報
| 著者 | Anudeep Das,Vasisht Duddu,Rui Zhang,N. Asokan | 
| 発行日 | 2025-02-26 14:53:47+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
