Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction

要約

大規模で未確認のデータセットでマルチモーダル生成モデルをトレーニングすると、ユーザーが有害、安全で、物議を醸す、または文化的に不適切な出力にさらされる可能性があります。
モデル編集は、埋め込みスペースや潜在スペースで望ましくない概念を削除またはフィルタリングするために提案されていますが、誤って学習されたマニホールドに損傷を与え、概念を密接な意味的に歪めます。
現在のモデル編集手法の制限を特定し、良性の近位概念でさえもずれている可能性があることを示しています。
安全なコンテンツ生成の必要性に対処するために、安全な埋め込みと、潜在的な空間に調整可能な加重合計を備えた修正された拡散プロセスを活用して、より安全な画像を生成します。
私たちの方法は、学習されたマニホールドの構造的完全性を損なうことなく、グローバルなコンテキストを保持します。
安全な画像生成ベンチマークで最新の結果を達成し、モデルの安全性のレベルを直感的に制御します。
安全性と検閲の間のトレードオフを特定します。これは、倫理的AIモデルの開発に必要な視点を提示します。
コードをリリースします。
キーワード:テキストからイメージモデル、生成AI、安全性、信頼性、モデル編集

要約(オリジナル)

Training multimodal generative models on large, uncurated datasets can result in users being exposed to harmful, unsafe and controversial or culturally-inappropriate outputs. While model editing has been proposed to remove or filter undesirable concepts in embedding and latent spaces, it can inadvertently damage learned manifolds, distorting concepts in close semantic proximity. We identify limitations in current model editing techniques, showing that even benign, proximal concepts may become misaligned. To address the need for safe content generation, we leverage safe embeddings and a modified diffusion process with tunable weighted summation in the latent space to generate safer images. Our method preserves global context without compromising the structural integrity of the learned manifolds. We achieve state-of-the-art results on safe image generation benchmarks and offer intuitive control over the level of model safety. We identify trade-offs between safety and censorship, which presents a necessary perspective in the development of ethical AI models. We will release our code. Keywords: Text-to-Image Models, Generative AI, Safety, Reliability, Model Editing

arxiv情報

著者 Jordan Vice,Naveed Akhtar,Mubarak Shah,Richard Hartley,Ajmal Mian
発行日 2025-03-05 14:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク