Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models

要約

拡散モデルは画像生成に大きな進歩を遂げていますが、大規模でフィルタリングされていないデータセットで訓練されたモデルは、しばしば人間の好みと誤った整列された出力をもたらします。
事前に訓練された拡散モデルを微調整するための多くの方法が提案されており、生成された出力を人間の好みに合わせて顕著な改善を達成しています。
ただし、既存の優先順位アラインメント方法は、無条件/負の条件の出力を処理するという重要な役割を無視し、望ましくない結果の生成を避ける能力が低下すると主張します。
この監視は、条件付き生成と無条件/負の生成のコントラストに依存して、出力品質を最適化するために条件付き生成と無条件/負の生成の有効性を制限します。
これに応じて、ネガティブな好みに特化したモデルをトレーニングすることを含む、単純だが多用途の効果的なアプローチを提案します。
この方法では、新しいトレーニング戦略やデータセットは必要ありませんが、既存の手法の軽微な変更を伴います。
私たちのアプローチは、SD1.5、SDXL、ビデオ拡散モデル、好みの最適化を受けたモデルなどのモデルとシームレスに統合し、人間の好みとの整合性を一貫して強化します。

要約(オリジナル)

Diffusion models have made substantial advances in image generation, yet models trained on large, unfiltered datasets often yield outputs misaligned with human preferences. Numerous methods have been proposed to fine-tune pre-trained diffusion models, achieving notable improvements in aligning generated outputs with human preferences. However, we argue that existing preference alignment methods neglect the critical role of handling unconditional/negative-conditional outputs, leading to a diminished capacity to avoid generating undesirable outcomes. This oversight limits the efficacy of classifier-free guidance~(CFG), which relies on the contrast between conditional generation and unconditional/negative-conditional generation to optimize output quality. In response, we propose a straightforward but versatile effective approach that involves training a model specifically attuned to negative preferences. This method does not require new training strategies or datasets but rather involves minor modifications to existing techniques. Our approach integrates seamlessly with models such as SD1.5, SDXL, video diffusion models and models that have undergone preference optimization, consistently enhancing their alignment with human preferences.

arxiv情報

著者	Fu-Yun Wang,Yunhao Shui,Jingtan Piao,Keqiang Sun,Hongsheng Li
発行日	2025-05-16 13:38:23+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー