要約
拡散モデルの最近の進歩は、印象的な画像生成機能につながりましたが、これらのモデルを人間の好みに合わせることは依然として困難です。
人間のフィードバックでトレーニングされたモデルを使用した報酬ベースの微調整は、アライメントを改善しますが、多くの場合、多様性を害し、あまり変化しない出力を生成します。
この作業では、2つの貢献でこのトレードオフに対処します。
まず、\ textit {Combined Generation}を紹介します。これは、以前のステップのベースモデルを保持しながら、生成プロセスの後期段階でのみ報酬調整された拡散モデルを適用する新しいサンプリング戦略です。
このアプローチは、初期段階の過剰適合を軽減し、グローバルな構造と多様性を維持するのに役立ちます。
第二に、\ textit {imagerfl}を提案します。これは、実際の画像でトレーニングし、拡散や反射損失を含む複数の正統派を組み込むことにより、品質の最小限の損失で画像の多様性を改善する微調整方法です。
私たちのアプローチは、標準の品質と多様性の指標に関する従来の報酬調整方法よりも優れています。
ユーザー調査では、私たちの方法が人間の好みの調整と視覚的多様性のバランスをよりよくバランスさせることをさらに確認しています。
ソースコードは、https://github.com/controlgenai/imagereflにあります。
要約(オリジナル)
Recent advances in diffusion models have led to impressive image generation capabilities, but aligning these models with human preferences remains challenging. Reward-based fine-tuning using models trained on human feedback improves alignment but often harms diversity, producing less varied outputs. In this work, we address this trade-off with two contributions. First, we introduce \textit{combined generation}, a novel sampling strategy that applies a reward-tuned diffusion model only in the later stages of the generation process, while preserving the base model for earlier steps. This approach mitigates early-stage overfitting and helps retain global structure and diversity. Second, we propose \textit{ImageReFL}, a fine-tuning method that improves image diversity with minimal loss in quality by training on real images and incorporating multiple regularizers, including diffusion and ReFL losses. Our approach outperforms conventional reward tuning methods on standard quality and diversity metrics. A user study further confirms that our method better balances human preference alignment and visual diversity. The source code can be found at https://github.com/ControlGenAI/ImageReFL .
arxiv情報
著者 | Dmitrii Sorokin,Maksim Nakhodnov,Andrey Kuznetsov,Aibek Alanov |
発行日 | 2025-05-28 16:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google