要約
近年、テキストから画像への (T2I) 生成モデルは、テキストの説明と一致する高品質の画像を生成する点で大幅に進歩しました。
ただし、これらのモデルは安全でない生成のリスクにも直面しており、露骨な素材など、使用ポリシーに違反する有害なコンテンツが生成される可能性があります。
既存の安全な生成方法は通常、視覚的表現から望ましくない概念を削除することで不適切なコンテンツを抑制することに焦点を当てており、テキスト表現のサニタイズは無視されています。
これらの方法は悪用のリスクをある程度軽減するのに役立ちますが、敵対的な攻撃に対処する場合、その堅牢性は依然として不十分です。
入力テキストと出力画像の間の意味的一貫性が T2I モデルの基本的な要件であることを考えると、テキスト表現 (つまり、プロンプト埋め込み) が安全でない生成の主な原因である可能性が高いことがわかります。
この目的を達成するために、私たちはビジョンに依存しない安全な生成フレームワークであるエンベディング サニタイザー (ES) を提案します。これは、プロンプト エンベディングから不適切な概念を削除することに焦点を当て、サニタイズされた埋め込みを使用して安全な生成のモデルをガイドします。
ES はプラグ アンド プレイ モジュールとしてテキスト エンコーダの出力に適用され、さまざまな T2I モデルや他の安全対策とのシームレスな統合が可能になります。
さらに、ES の独自のスコアリング メカニズムは、プロンプト内の各トークンにスコアを割り当てて潜在的な有害性を示し、サニタイズ強度を動的に調整して防御パフォーマンスと生成品質のバランスをとります。
5 つのプロンプト ベンチマークでの広範な評価を通じて、当社のアプローチは、9 つのベースライン手法と比較して、安全でない生成のソース (プロンプト埋め込み) をサニタイズすることで最先端の堅牢性を実現します。
生成品質を維持しながら、解釈可能性と制御可能性の点で既存の保護手段を大幅に上回ります。
要約(オリジナル)
In recent years, text-to-image (T2I) generation models have made significant progress in generating high-quality images that align with text descriptions. However, these models also face the risk of unsafe generation, potentially producing harmful content that violates usage policies, such as explicit material. Existing safe generation methods typically focus on suppressing inappropriate content by erasing undesired concepts from visual representations, while neglecting to sanitize the textual representation. Although these methods help mitigate the risk of misuse to certain extent, their robustness remains insufficient when dealing with adversarial attacks. Given that semantic consistency between input text and output image is a fundamental requirement for T2I models, we identify that textual representations (i.e., prompt embeddings) are likely the primary source of unsafe generation. To this end, we propose a vision-agnostic safe generation framework, Embedding Sanitizer (ES), which focuses on erasing inappropriate concepts from prompt embeddings and uses the sanitized embeddings to guide the model for safe generation. ES is applied to the output of the text encoder as a plug-and-play module, enabling seamless integration with different T2I models as well as other safeguards. In addition, ES’s unique scoring mechanism assigns a score to each token in the prompt to indicate its potential harmfulness, and dynamically adjusts the sanitization intensity to balance defensive performance and generation quality. Through extensive evaluation on five prompt benchmarks, our approach achieves state-of-the-art robustness by sanitizing the source (prompt embedding) of unsafe generation compared to nine baseline methods. It significantly outperforms existing safeguards in terms of interpretability and controllability while maintaining generation quality.
arxiv情報
著者 | Huming Qiu,Guanxu Chen,Mi Zhang,Min Yang |
発行日 | 2024-11-15 16:29:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google