Training Unbiased Diffusion Models From Biased Dataset

要約

拡散モデルの大幅な進歩に伴い、データセット・バイアスの潜在的リスクへの対処がますます重要になっている。生成された出力はデータセットバイアスに直接苦しむため、潜在的なバイアスを緩和することがサンプルの質と割合を改善する上で重要な要素となる。本稿では、拡散モデルのバイアスを緩和するために、時間依存重要度再重みを提案する。時間依存密度比が従来のアプローチよりも正確になり、生成学習における誤差伝播を最小化することを実証する。スコアマッチングに直接適用することは困難であるが、時間依存密度比を再重み付けとスコア補正の両方に用いることで、バイアスのないデータ密度を再生成する目的関数の扱いやすい形が得られることを発見した。さらに、従来のスコアマッチングとの関連性を理論的に確立し、不偏分布への収束を実証する。提案手法は、CIFAR-10、CIFAR-100、FFHQ、CelebAにおいて、様々なバイアス設定で、時間独立重要度再重み付けを含むベースラインを上回る性能を示し、その有用性を実験的に裏付けている。コードはhttps://github.com/alsdudrla10/TIW-DSM。

要約(オリジナル)

With significant advancements in diffusion models, addressing the potential risks of dataset bias becomes increasingly important. Since generated outputs directly suffer from dataset bias, mitigating latent bias becomes a key factor in improving sample quality and proportion. This paper proposes time-dependent importance reweighting to mitigate the bias for the diffusion models. We demonstrate that the time-dependent density ratio becomes more precise than previous approaches, thereby minimizing error propagation in generative learning. While directly applying it to score-matching is intractable, we discover that using the time-dependent density ratio both for reweighting and score correction can lead to a tractable form of the objective function to regenerate the unbiased data density. Furthermore, we theoretically establish a connection with traditional score-matching, and we demonstrate its convergence to an unbiased distribution. The experimental evidence supports the usefulness of the proposed method, which outperforms baselines including time-independent importance reweighting on CIFAR-10, CIFAR-100, FFHQ, and CelebA with various bias settings. Our code is available at https://github.com/alsdudrla10/TIW-DSM.

arxiv情報

著者 Yeongmin Kim,Byeonghu Na,Minsang Park,JoonHo Jang,Dongjun Kim,Wanmo Kang,Il-Chul Moon
発行日 2024-03-02 12:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク