DanceGRPO: Unleashing GRPO on Visual Generation

要約

生成モデルの最近のブレークスルー特異的に拡散モデルと整流された流れが革新された視覚コンテンツの作成に革命をもたらしましたが、モデルの出力を人間の好みに合わせて整合することは依然として重要な課題です。
視覚生成のための既存の強化学習(RL)ベースの方法は、最新の通常の微分方程式(ODE)ベースのサンプリングパラダイムとの非互換性、大規模なトレーニングの不安定性、ビデオ生成の検証の欠如。
このペーパーでは、グループ相対ポリシーの最適化(GRPO)を視覚生成パラダイムに適応させる最初の統一フレームワークであるDanceGrpoを紹介し、2つの生成パラダイム(拡散モデルと整流フロー)にわたって1つの統一されたRLアルゴリズムを解き放ちます。
Skyreel-I2V)、および5つの報酬モデル(画像/ビデオの美学、テキストイメージのアライメント、ビデオモーションの品質、バイナリ報酬)。
私たちの知る限り、DanceGrpoは、多様な生成パラダイム、タスク、基礎モデル、および報酬モデルにわたってシームレスな適応を可能にする最初のRLベースの統一フレームワークです。
DanceGrpoは、HPS-V2.1、CLIPスコア、ビデオアリグム、Genevalなどのベンチマークでベースラインを最大181%上回る一貫した大幅な改善を示しています。
特に、DanceGrpoは、複雑なビデオ生成のポリシーの最適化を安定させるだけでなく、生成ポリシーがベストアンド推論のスケーリングの除去軌跡をより適切にキャプチャし、まばらなバイナリフィードバックから学習できるようにします。
我々の結果は、視覚生成における人間のフィードバック(RLHF)タスクからの強化学習をスケーリングするための堅牢で多用途のソリューションとしてDanceGrpoを確立し、補強学習と視覚合成の調和に関する新しい洞察を提供します。
コードがリリースされます。

要約(オリジナル)

Recent breakthroughs in generative models-particularly diffusion models and rectified flows-have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. Existing reinforcement learning (RL)-based methods for visual generation face critical limitations: incompatibility with modern Ordinary Differential Equations (ODEs)-based sampling paradigms, instability in large-scale training, and lack of validation for video generation. This paper introduces DanceGRPO, the first unified framework to adapt Group Relative Policy Optimization (GRPO) to visual generation paradigms, unleashing one unified RL algorithm across two generative paradigms (diffusion models and rectified flows), three tasks (text-to-image, text-to-video, image-to-video), four foundation models (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video aesthetics, text-image alignment, video motion quality, and binary reward). To our knowledge, DanceGRPO is the first RL-based unified framework capable of seamless adaptation across diverse generative paradigms, tasks, foundational models, and reward models. DanceGRPO demonstrates consistent and substantial improvements, which outperform baselines by up to 181% on benchmarks such as HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can stabilize policy optimization for complex video generation, but also enables generative policy to better capture denoising trajectories for Best-of-N inference scaling and learn from sparse binary feedback. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis. The code will be released.

arxiv情報

著者 Zeyue Xue,Jie Wu,Yu Gao,Fangyuan Kong,Lingting Zhu,Mengzhao Chen,Zhiheng Liu,Wei Liu,Qiushan Guo,Weilin Huang,Ping Luo
発行日 2025-05-12 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク