これを動機として、画像拡散モデルによるアーチファクトの生成を支援する 2 段階のパイプラインである DiffDoctor を提案します。
具体的には、第 1 段階では、堅牢なアーティファクト検出器の開発を目標としています。そのために、100 万枚を超える欠陥のある合成画像のデータセットを収集し、慎重に設計されたクラスバランス戦略を組み込んだ、効率的な人間参加型のアノテーション プロセスをセットアップします。
次に、学習されたアーティファクト検出器が第 2 段階で関与し、合成ごとにピクセルごとの信頼マップを割り当てることで拡散モデルを調整します。
In spite of the recent progress, image diffusion models still produce artifacts. A common solution is to refine an established model with a quality assessment system, which generally rates an image in its entirety. In this work, we believe problem-solving starts with identification, yielding the request that the model should be aware of not just the presence of defects in an image, but their specific locations. Motivated by this, we propose DiffDoctor, a two-stage pipeline to assist image diffusion models in generating fewer artifacts. Concretely, the first stage targets developing a robust artifact detector, for which we collect a dataset of over 1M flawed synthesized images and set up an efficient human-in-the-loop annotation process, incorporating a carefully designed class-balance strategy. The learned artifact detector is then involved in the second stage to tune the diffusion model through assigning a per-pixel confidence map for each synthesis. Extensive experiments on text-to-image diffusion models demonstrate the effectiveness of our artifact detector as well as the soundness of our diagnose-then-treat design.
著者 | Yiyang Wang,Xi Chen,Xiaogang Xu,Sihui Ji,Yu Liu,Yujun Shen,Hengshuang Zhao |
発行日 | 2025-01-21 18:56:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google