Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

要約

インターネット上で入手可能な膨大な量のデータによって実現される優れた品質を備えた大規模な画像生成モデルは、これらのモデルが有害なコンテンツや著作権で保護されたコンテンツを生成する可能性があるという社会的懸念を引き起こしています。
バイアスと有害性はトレーニング プロセス全体を通じて発生し、完全に取り除くのは難しく、これらのモデルを安全に導入する上で大きな障害となっています。
この論文では、テキストから画像への拡散モデルにおける問題のあるコンテンツ生成を防ぐために SDD と呼ばれる方法を提案します。
拡散モデルを自己蒸留して、ターゲット除去の概念に基づいて条件付けされたノイズ推定値を無条件の推定値と一致するように導きます。
以前の方法と比較して、私たちの方法は、全体的な画質を低下させることなく、生成された画像から有害なコンテンツを大幅に除去します。
さらに、以前の研究では一度に 1 つの概念を削除することに限定されていたのに対し、私たちの方法では複数の概念を一度に削除できます。

要約(オリジナル)

Large-scale image generation models, with impressive quality made possible by the vast amount of data available on the Internet, raise social concerns that these models may generate harmful or copyrighted content. The biases and harmfulness arise throughout the entire training process and are hard to completely remove, which have become significant hurdles to the safe deployment of these models. In this paper, we propose a method called SDD to prevent problematic content generation in text-to-image diffusion models. We self-distill the diffusion model to guide the noise estimate conditioned on the target removal concept to match the unconditional one. Compared to the previous methods, our method eliminates a much greater proportion of harmful content from the generated images without degrading the overall image quality. Furthermore, our method allows the removal of multiple concepts at once, whereas previous works are limited to removing a single concept at a time.

arxiv情報

著者 Sanghyun Kim,Seohyeon Jung,Balhae Kim,Moonseok Choi,Jinwoo Shin,Juho Lee
発行日 2023-07-12 07:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク