要約
最近の進歩にもかかわらず、画像拡散モデルは依然としてアーチファクトを生成します。
一般的な解決策は、確立されたモデルを品質評価システムで改良することです。品質評価システムは通常、画像全体を評価します。
この研究では、問題解決は識別から始まると考えており、モデルは画像内の欠陥の存在だけでなく、その特定の位置を認識する必要があるという要求が生じます。
これを動機として、画像拡散モデルによるアーチファクトの生成を支援する 2 段階のパイプラインである DiffDoctor を提案します。
具体的には、第 1 段階では、堅牢なアーティファクト検出器の開発を目標としています。そのために、100 万枚を超える欠陥のある合成画像のデータセットを収集し、慎重に設計されたクラスバランス戦略を組み込んだ、効率的な人間参加型のアノテーション プロセスをセットアップします。
次に、学習されたアーティファクト検出器が第 2 段階で関与し、合成ごとにピクセルごとの信頼マップを割り当てることで拡散モデルを調整します。
テキストから画像への拡散モデルに関する広範な実験により、アーチファクト検出器の有効性と、診断してから治療する設計の健全性が実証されました。
要約(オリジナル)
In spite of the recent progress, image diffusion models still produce artifacts. A common solution is to refine an established model with a quality assessment system, which generally rates an image in its entirety. In this work, we believe problem-solving starts with identification, yielding the request that the model should be aware of not just the presence of defects in an image, but their specific locations. Motivated by this, we propose DiffDoctor, a two-stage pipeline to assist image diffusion models in generating fewer artifacts. Concretely, the first stage targets developing a robust artifact detector, for which we collect a dataset of over 1M flawed synthesized images and set up an efficient human-in-the-loop annotation process, incorporating a carefully designed class-balance strategy. The learned artifact detector is then involved in the second stage to tune the diffusion model through assigning a per-pixel confidence map for each synthesis. Extensive experiments on text-to-image diffusion models demonstrate the effectiveness of our artifact detector as well as the soundness of our diagnose-then-treat design.
arxiv情報
著者 | Yiyang Wang,Xi Chen,Xiaogang Xu,Sihui Ji,Yu Liu,Yujun Shen,Hengshuang Zhao |
発行日 | 2025-01-21 18:56:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google