要約
拡散ベースのテキストから画像への (T2I) モデルは、指定されたテキスト プロンプトに対して忠実度の高い画像を生成します。
これらは、インターネットから収集された大規模なデータセットでトレーニングされており、許容できない概念 (著作権侵害や安全でないなど) が含まれている可能性があります。
トレーニング データ内の受け入れられない概念を除外した後で T2I モデルを再トレーニングするのは非効率であり、実用性が低下します。
したがって、受け入れられない概念を除去し、受け入れ可能な概念の実用性を維持し、敵対的なプロンプトによる回避に対して堅牢な概念除去技術 (CRT) が必要です。
従来のフィルタリングおよび微調整 CRT は、これらすべての要件を同時に満たすものはありませんでした。
Contrastive Language-Image Pre-Training (CLIP) に基づいた最初の堅牢なコンセプト フィルターである Espresso を紹介します。
生成された画像の埋め込みを、テキストと画像の結合埋め込み空間内の許容できない概念と許容できる概念を接続するベクトルに投影することにより、許容できない概念を識別します。
これにより、敵対者がこのベクトルに沿って、許容可能な概念の方向にのみノイズを追加するように制限されるため、堅牢性が確保されます。
Espresso をさらに微調整して、画像埋め込みとの組み合わせを維持しながら、許容可能な概念と許容できない概念の埋め込みを分離することで、有効性と実用性の両方を確保します。
Espresso を 11 の概念で評価し、効果的であること (受け入れられない概念で最大 5% の CLIP 精度)、実用性の維持 (許容可能な概念で最大 93% の正規化された CLIP スコア)、および堅牢である (敵対的なプロンプトで最大 4% の CLIP 精度) であることを示します。
受け入れられない概念)。
最後に、敵対的プロンプトに対する Espresso の証明された堅牢性の理論的限界と経験的分析を示します。
要約(オリジナル)
Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image’s embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis.
arxiv情報
著者 | Anudeep Das,Vasisht Duddu,Rui Zhang,N. Asokan |
発行日 | 2024-06-07 14:28:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google