Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences

要約

ワンステップのテキストから画像への生成モデルには、迅速な推論効率、柔軟なアーキテクチャ、最先端の生成パフォーマンスなどの利点があります。
この論文では、ワンステップ生成モデルを人間の好みに合わせるという問題を初めて研究します。
ヒューマン フィードバックを使用した強化学習 (RLHF) の成功にヒントを得て、生成器の発散を防ぐために積分カルバック ライブラー発散項を追加しながら、期待される人間の報酬関数を最大化するようにアライメント問題を定式化します。
技術的な課題を克服することで、ワンステップのテキストから画像へのジェネレーターのための、初の高速収束で画像データを必要としない人間の好みの調整方法である Diff-Instruct++ (DI++) を導入します。
また、拡散蒸留に CFG を使用すると、DI++ で密かに RLHF が実行されることを示す、新しい理論的洞察も紹介します。
このような興味深い発見は、CFG に関する将来の研究への理解と潜在的な貢献をもたらします。
実験セクションでは、DI++ を使用して UNet ベースと DiT ベースの両方のワンステップ ジェネレーターを調整します。これは、Stable Diffusion 1.5 と PixelArt-$\alpha$ を参照拡散プロセスとして使用します。
結果として得られた DiT ベースのワンステップのテキストから画像へのモデルは、COCO 検証プロンプト データセットで 6.19 という高い美的スコアと 1.24 の画像報酬を達成しました。
また、28.48 という優れた人間選好スコア (HPSv2.0) を達成しており、Stable Diffusion XL、DMD2、SD-Turbo や PixelArt-$\alpha$ などの他のオープンソース モデルを上回っています。
理論的貢献と経験的証拠の両方から、DI++ はワンステップのテキストから画像へのモデルに対する強力な人間の好みの調整アプローチであることが示されています。

要約(オリジナル)

One-step text-to-image generator models offer advantages such as swift inference efficiency, flexible architectures, and state-of-the-art generation performance. In this paper, we study the problem of aligning one-step generator models with human preferences for the first time. Inspired by the success of reinforcement learning using human feedback (RLHF), we formulate the alignment problem as maximizing expected human reward functions while adding an Integral Kullback-Leibler divergence term to prevent the generator from diverging. By overcoming technical challenges, we introduce Diff-Instruct++ (DI++), the first, fast-converging and image data-free human preference alignment method for one-step text-to-image generators. We also introduce novel theoretical insights, showing that using CFG for diffusion distillation is secretly doing RLHF with DI++. Such an interesting finding brings understanding and potential contributions to future research involving CFG. In the experiment sections, we align both UNet-based and DiT-based one-step generators using DI++, which use the Stable Diffusion 1.5 and the PixelArt-$\alpha$ as the reference diffusion processes. The resulting DiT-based one-step text-to-image model achieves a strong Aesthetic Score of 6.19 and an Image Reward of 1.24 on the COCO validation prompt dataset. It also achieves a leading Human preference Score (HPSv2.0) of 28.48, outperforming other open-sourced models such as Stable Diffusion XL, DMD2, SD-Turbo, as well as PixelArt-$\alpha$. Both theoretical contributions and empirical evidence indicate that DI++ is a strong human-preference alignment approach for one-step text-to-image models.

arxiv情報

著者 Weijian Luo
発行日 2024-10-24 16:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク