DiffGuard: Text-Based Safety Checker for Diffusion Models

要約

拡散モデルの最近の進歩により、テキストからの画像の生成が可能になり、Dall-EやMidjourneyなどの強力なクローズドソースモデルが先導しています。
ただし、StabilityAの安定した拡散などのオープンソースの代替品は、同等の機能を提供します。
抱きしめる顔にホストされているこれらのオープンソースモデルには、明示的な画像の生成を防ぐために設計された倫理的フィルター保護が装備されています。
このペーパーでは、最初に彼らの制限を明らかにし、次に既存のソリューションを上回る新しいテキストベースの安全フィルターを提示します。
私たちの研究は、特に情報戦争の文脈において、AIに生成されたコンテンツの誤用に対処する重要な必要性によって推進されています。
DiffGuardはフィルタリングの有効性を高め、最高の既存のフィルターを14%以上超えるパフォーマンスを達成します。

要約(オリジナル)

Recent advances in Diffusion Models have enabled the generation of images from text, with powerful closed-source models like DALL-E and Midjourney leading the way. However, open-source alternatives, such as StabilityAI’s Stable Diffusion, offer comparable capabilities. These open-source models, hosted on Hugging Face, come equipped with ethical filter protections designed to prevent the generation of explicit images. This paper reveals first their limitations and then presents a novel text-based safety filter that outperforms existing solutions. Our research is driven by the critical need to address the misuse of AI-generated content, especially in the context of information warfare. DiffGuard enhances filtering efficacy, achieving a performance that surpasses the best existing filters by over 14%.

arxiv情報

著者 Massine El Khader,Elias Al Bouzidi,Abdellah Oumida,Mohammed Sbaihi,Eliott Binard,Jean-Philippe Poli,Wassila Ouerdane,Boussad Addad,Katarzyna Kapusta
発行日 2025-02-19 15:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク