Editing Massive Concepts in Text-to-Image Diffusion Models

要約

テキストから画像への拡散モデルには、時代遅れで著作権で保護された不正確で偏ったコンテンツが生成されるリスクがあります。
以前の方法では小規模な問題は軽減されましたが、より大規模な現実世界のシナリオでは問題を同時に処理することが不可欠です。
我々は、2 段階の手法である Editing Massive Concepts In Diffusion Models (EMCID) を提案します。
最初のステージでは、テキスト アライメント損失と拡散ノイズ予測損失からの二重自己蒸留を使用して、個々の概念ごとにメモリの最適化を実行します。
第 2 段階では、多層の閉じた形式のモデル編集による大規模なコンセプト編集を実行します。
さらに、2 つのサブタスク、自由形式のプロンプト、大規模なコンセプト カテゴリ、広範な評価メトリクスを備えた T2I モデルの大規模なコンセプト編集を評価するための、ImageNet Concept Editing Benchmark (ICEB) という名前の包括的なベンチマークを提案します。
提案したベンチマークと以前のベンチマークで行われた広範な実験により、最大 1,000 のコンセプトを編集できる EMCID の優れたスケーラビリティが実証され、実世界のアプリケーションで T2I 拡散モデルを迅速に調整および再展開するための実用的なアプローチが提供されます。

要約(オリジナル)

Text-to-image diffusion models suffer from the risk of generating outdated, copyrighted, incorrect, and biased content. While previous methods have mitigated the issues on a small scale, it is essential to handle them simultaneously in larger-scale real-world scenarios. We propose a two-stage method, Editing Massive Concepts In Diffusion Models (EMCID). The first stage performs memory optimization for each individual concept with dual self-distillation from text alignment loss and diffusion noise prediction loss. The second stage conducts massive concept editing with multi-layer, closed form model editing. We further propose a comprehensive benchmark, named ImageNet Concept Editing Benchmark (ICEB), for evaluating massive concept editing for T2I models with two subtasks, free-form prompts, massive concept categories, and extensive evaluation metrics. Extensive experiments conducted on our proposed benchmark and previous benchmarks demonstrate the superior scalability of EMCID for editing up to 1,000 concepts, providing a practical approach for fast adjustment and re-deployment of T2I diffusion models in real-world applications.

arxiv情報

著者 Tianwei Xiong,Yue Wu,Enze Xie,Yue Wu,Zhenguo Li,Xihui Liu
発行日 2024-03-20 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク