要約
拡散モデルを入力プロンプトに合わせる人間のフィードバック(RLHF)からの強化学習は、信頼できる生成AIモデルを構築する上で重要なステップになりました。
この領域のほとんどの作品は、誘導されたエラーが発生しやすく、より高次/ブラックボックスソルバーを使用したモデルには適用されない離散時間の定式化を使用しています。
この研究の目的は、最終結果(端子状態)を入力プロンプトに合わせた報酬関数を備えた確率制御問題として定式化された連続時間RLを使用して、拡散モデルを微調整するための規律あるアプローチを開発することです。
重要なアイデアは、スコアマッチングをコントロールまたはアクションとして扱い、それにより、継続時間RLでのポリシーの最適化と正則化に接続することです。
このアイデアを実行するために、連続時間RLの新しいポリシー最適化フレームワークをレイアウトし、拡散モデルの構造特性を活用することにより、バリューネットワーク設計スペースを強化する可能性を示します。
安定した拡散v1.5の微調整の大規模なテキスト2imageモデルの下流タスクでの実験により、方法の利点を検証します。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF), which aligns a diffusion model with input prompt, has become a crucial step in building reliable generative AI models. Most works in this area use a discrete-time formulation, which is prone to induced errors, and often not applicable to models with higher-order/black-box solvers. The objective of this study is to develop a disciplined approach to fine-tune diffusion models using continuous-time RL, formulated as a stochastic control problem with a reward function that aligns the end result (terminal state) with input prompt. The key idea is to treat score matching as controls or actions, and thereby making connections to policy optimization and regularization in continuous-time RL. To carry out this idea, we lay out a new policy optimization framework for continuous-time RL, and illustrate its potential in enhancing the value networks design space via leveraging the structural property of diffusion models. We validate the advantages of our method by experiments in downstream tasks of fine-tuning large-scale Text2Image models of Stable Diffusion v1.5.
arxiv情報
著者 | Hanyang Zhao,Haoxian Chen,Ji Zhang,David D. Yao,Wenpin Tang |
発行日 | 2025-04-16 15:36:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google