要約
最も成功した生成モデルの 1 つである拡散モデルは、高品質の画像を合成する際に顕著な効果を示しています。
これらのモデルは、基礎となる高次元のデータ分布を教師なしの方法で学習します。
成功にもかかわらず、拡散モデルは高度にデータ駆動型であり、現実世界のデータに存在する不均衡や偏りを引き継ぐ傾向があります。
一部の研究では、既知のバイアスに対するテキスト プロンプトを設計したり、バイアス ラベルを使用してバイアスのないデータを構築したりすることで、これらの問題に対処しようと試みています。
これらの方法では改善された結果が示されていますが、現実世界のシナリオにはさまざまな未知のバイアスが含まれることが多く、バイアス ラベルを取得するのは特に困難です。
この論文では、補助的なバイアス アノテーションに依存せずに、事前トレーニングされた拡散モデルのバイアスを軽減する必要性を強調します。
この問題に取り組むために、拡散ガイダンスのための不変の意味情報を学習することを目的としたフレームワーク InvDiff を提案します。
具体的には、トレーニング データの根底にあるバイアスを特定し、新しいバイアス除去トレーニング目標を設計することを提案します。
次に、不変のセマンティック情報を自動的に保存し、それを使用して拡散モデルのサンプリング プロセスを同時に不偏の結果に向けてガイドする、軽量のトレーニング可能なモジュールを採用します。
特に、事前トレーニングされた拡散モデルを変更せずに、軽量の学習可能モジュールで少数のパラメータを学習するだけで済みます。
さらに、InvDiff の実装が一般化の誤差上限を減らすことと同等であるという理論的保証を提供します。
公開されている 3 つのベンチマークに関する広範な実験結果は、InvDiff が画像生成の品質を維持しながら効果的にバイアスを低減することを実証しています。
私たちのコードは https://github.com/Hundredl/InvDiff で入手できます。
要約(オリジナル)
As one of the most successful generative models, diffusion models have demonstrated remarkable efficacy in synthesizing high-quality images. These models learn the underlying high-dimensional data distribution in an unsupervised manner. Despite their success, diffusion models are highly data-driven and prone to inheriting the imbalances and biases present in real-world data. Some studies have attempted to address these issues by designing text prompts for known biases or using bias labels to construct unbiased data. While these methods have shown improved results, real-world scenarios often contain various unknown biases, and obtaining bias labels is particularly challenging. In this paper, we emphasize the necessity of mitigating bias in pre-trained diffusion models without relying on auxiliary bias annotations. To tackle this problem, we propose a framework, InvDiff, which aims to learn invariant semantic information for diffusion guidance. Specifically, we propose identifying underlying biases in the training data and designing a novel debiasing training objective. Then, we employ a lightweight trainable module that automatically preserves invariant semantic information and uses it to guide the diffusion model’s sampling process toward unbiased outcomes simultaneously. Notably, we only need to learn a small number of parameters in the lightweight learnable module without altering the pre-trained diffusion model. Furthermore, we provide a theoretical guarantee that the implementation of InvDiff is equivalent to reducing the error upper bound of generalization. Extensive experimental results on three publicly available benchmarks demonstrate that InvDiff effectively reduces biases while maintaining the quality of image generation. Our code is available at https://github.com/Hundredl/InvDiff.
arxiv情報
| 著者 | Min Hou,Yueying Wu,Chang Xu,Yu-Hao Huang,Chenxi Bai,Le Wu,Jiang Bian |
| 発行日 | 2024-12-11 15:47:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google