PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation

要約

拡散モデルは、近年大きな進歩を遂げています。
ただし、不均衡なデータセットで訓練または微調整された場合、パフォーマンスはしばしば悪化します。
この劣化は、主に画像テキストペアにおける多数派と少数派データの不均衡な表現によるものです。
この論文では、この課題に対処するために、Pogdiffと呼ばれる一般的な微調整アプローチを提案します。
Pogdiffは、予測された分布と根真実の分布との間のKLの発散を直接最小化するのではなく、グラウンドトゥルース分布をガウス(POG)の産物に置き換えます。
隣接するテキスト埋め込み。
実際のデータセットでの実験は、我々の方法が拡散モデルの不均衡の問題に効果的に対処し、生成の精度と品質の両方を改善することを示しています。

要約(オリジナル)

Diffusion models have made significant advancements in recent years. However, their performance often deteriorates when trained or fine-tuned on imbalanced datasets. This degradation is largely due to the disproportionate representation of majority and minority data in image-text pairs. In this paper, we propose a general fine-tuning approach, dubbed PoGDiff, to address this challenge. Rather than directly minimizing the KL divergence between the predicted and ground-truth distributions, PoGDiff replaces the ground-truth distribution with a Product of Gaussians (PoG), which is constructed by combining the original ground-truth targets with the predicted distribution conditioned on a neighboring text embedding. Experiments on real-world datasets demonstrate that our method effectively addresses the imbalance problem in diffusion models, improving both generation accuracy and quality.

arxiv情報

著者 Ziyan Wang,Sizhe Wei,Xiaoming Huo,Hao Wang
発行日 2025-02-19 16:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク