A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

要約

Rehnecortion Learning(RL)ベースの微調整は、拡散モデルをブラックボックス目標と整列させるための強力なアプローチとして浮上しています。
近位政策最適化(PPO)は、政策最適化のための最も一般的な選択肢です。
パフォーマンスの点では効果的ですが、PPOはハイパーパラメーターに非常に敏感であり、実質的な計算オーバーヘッドを伴います。
一方、強化すると、高メモリオーバーヘッドや敏感なハイパーパラメーターチューニングなどの計算複雑さが軽減されますが、低変異性とサンプルの非効率性のために最適ではないパフォーマンスがあります。
補強の分散は、入力プロンプトごとに複数のアクションをサンプリングし、ベースライン補正項を使用することで減少させることができますが、サンプルの非効率性には依然として苦しんでいます。
これらの課題に対処するために、RenforceとPPOの間の効率効率のトレードオフを体系的に分析し、拡散微調整法の新しいRLであるLeave-One-Out PPO(Loop)を提案します。
ループは、入力プロンプトごとの複数のアクションのサンプリングやベースライン補正項など、クリッピングと重要性サンプリングによるPPOの堅牢性とサンプル効率など、補強からの分散削減手法を組み合わせます。
我々の結果は、ループがさまざまなブラックボックスの目的で拡散モデルを効果的に改善し、計算効率とパフォーマンスのバランスを改善することを示しています。

要約(オリジナル)

Reinforcement learning (RL)-based fine-tuning has emerged as a powerful approach for aligning diffusion models with black-box objectives. Proximal policy optimization (PPO) is the most popular choice of method for policy optimization. While effective in terms of performance, PPO is highly sensitive to hyper-parameters and involves substantial computational overhead. REINFORCE, on the other hand, mitigates some computational complexities such as high memory overhead and sensitive hyper-parameter tuning, but has suboptimal performance due to high-variance and sample inefficiency. While the variance of the REINFORCE can be reduced by sampling multiple actions per input prompt and using a baseline correction term, it still suffers from sample inefficiency. To address these challenges, we systematically analyze the efficiency-effectiveness trade-off between REINFORCE and PPO, and propose leave-one-out PPO (LOOP), a novel RL for diffusion fine-tuning method. LOOP combines variance reduction techniques from REINFORCE, such as sampling multiple actions per input prompt and a baseline correction term, with the robustness and sample efficiency of PPO via clipping and importance sampling. Our results demonstrate that LOOP effectively improves diffusion models on various black-box objectives, and achieves a better balance between computational efficiency and performance.

arxiv情報

著者 Shashank Gupta,Chaitanya Ahuja,Tsung-Yu Lin,Sreya Dutta Roy,Harrie Oosterhuis,Maarten de Rijke,Satya Narayan Shukla
発行日 2025-03-06 17:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク