要約
近年、テキストからイメージ(T2I)生成モデルは、テキストの説明に合わせた高品質の画像の生成に大きな進歩を遂げました。
ただし、これらのモデルは危険な世代のリスクにも直面しており、明示的な資料などの使用ポリシーに違反する有害なコンテンツを生成する可能性があります。
既存の安全な生成方法は通常、テキスト表現を消毒することを無視しながら、視覚表現から望ましくない概念を消去することにより、不適切なコンテンツを抑制することに焦点を当てています。
これらの方法は、ある程度誤用のリスクを軽減するのに役立ちますが、敵対的な攻撃に対処する場合、それらの堅牢性は不十分なままです。
入力テキストと出力イメージの間のセマンティックな一貫性がT2Iモデルのコア要件であることを考えると、テキスト表現が安全でない生成の主要なソースである可能性が高いことを特定します。
この目的のために、埋め込み消毒剤(ES)を提案します。これは、迅速な埋め込みに不適切な概念を消毒することにより、T2Iモデルの安全性を高めることを提案します。
私たちの知る限り、ESは、プロンプトの各トークンにスコアを割り当てて、潜在的な有害性を示す最初の解釈可能な安全な生成フレームワークです。
さらに、ESはプラグアンドプレイモジュラー設計を採用しており、さまざまなT2Iモデルやその他の保護手段とのシームレスな統合のための互換性を提供します。
5つのプロンプトベンチマークの評価は、ESが11の既存の保護措置ベースラインを上回り、高品質の画像生成を維持しながら最先端の堅牢性を達成することを示しています。
要約(オリジナル)
In recent years, text-to-image (T2I) generation models have made significant progress in generating high-quality images that align with text descriptions. However, these models also face the risk of unsafe generation, potentially producing harmful content that violates usage policies, such as explicit material. Existing safe generation methods typically focus on suppressing inappropriate content by erasing undesired concepts from visual representations, while neglecting to sanitize the textual representation. Although these methods help mitigate the risk of misuse to some extent, their robustness remains insufficient when dealing with adversarial attacks. Given that semantic consistency between input text and output image is a core requirement of T2I models, we identify that textual representations are likely the primary source of unsafe generation. To this end, we propose Embedding Sanitizer (ES), which enhances the safety of T2I models by sanitizing inappropriate concepts in prompt embeddings. To our knowledge, ES is the first interpretable safe generation framework that assigns a score to each token in the prompt to indicate its potential harmfulness. In addition, ES adopts a plug-and-play modular design, offering compatibility for seamless integration with various T2I models and other safeguards. Evaluations on five prompt benchmarks show that ES outperforms eleven existing safeguard baselines, achieving state-of-the-art robustness while maintaining high-quality image generation.
arxiv情報
著者 | Huming Qiu,Guanxu Chen,Mi Zhang,Xiaohan Zhang,Xiaoyu You,Min Yang |
発行日 | 2025-04-15 12:26:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google