要約
拡散モデルは、さまざまなドメインにわたって強力な生成ツールとして浮上していますが、特定の望ましい特性を示すために事前に訓練されたモデルを調整することは依然として困難です。
Rehnection Learning(RL)は有望なソリューションを提供しますが、現在の方法は、安定した効率的な微調整を実現し、非差性の報酬をサポートするのに同時に苦労しています。
さらに、スパースの報酬への依存は、中間ステップ中に不十分な監督を提供し、多くの場合、最適ではない生成の品質をもたらします。
これらの制限に対処するために、拡散プロセス全体で密度と微分可能な信号が必要です。
したがって、私たちは価値ベースの強化拡散(VARD)を提案します。最初に中間状態からの報酬の免除を予測する値関数を学習し、その後KL正規化でこの値関数を使用して、生成プロセス全体で密な監督を提供します。
私たちの方法は、逆流を介して効果的で安定したトレーニングを可能にしながら、事前に守られたモデルへの近接性を維持します。
実験結果は、私たちのアプローチがより良い軌道ガイダンスを促進し、トレーニングの効率を改善し、RLの適用性を複雑で分化できない報酬機能に最適化された拡散モデルに拡張することを示しています。
要約(オリジナル)
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
arxiv情報
著者 | Fengyuan Dai,Zifeng Zhuang,Yufei Huang,Siteng Huang,Bangyan Liao,Donglin Wang,Fajie Yuan |
発行日 | 2025-05-21 17:44:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google