Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約

最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高める上で、強化学習(RL)の重要な役割を強調しています。
2つの顕著なRLアルゴリズム、直接選好最適化(DPO)とグループ相対ポリシー最適化(GRPO)は、これらの開発の中心であり、異なる長所と短所を示しています。
また、シーケンシャルコット推論プロセスとして解釈可能な自己回帰画像生成は、LLMベースのCOT推論とは異なるユニークな課題を提示します。
これらは、テキストイメージの一貫性を確保し、画像の美的品質を改善し、より単純なルールベースの報酬に依存するのではなく、洗練された報酬モデルを設計することを網羅しています。
最近の努力によりRLがこのドメインに拡大されていますが、これらの探索は通常、ドメイン固有の課題とさまざまなRL戦略の特性の詳細な分析を欠いています。
このギャップを埋めるために、自己回帰画像生成におけるGRPOおよびDPOアルゴリズムの最初の包括的な調査を提供し、ドメイン内のパフォーマンスとドメイン外の一般化を評価しながら、それぞれの能力に対する異なる報酬モデルの影響を精査します。
我々の調査結果は、GRPOとDPOが明確な利点を示し、決定的には、より強力な内因性一般化機能を有するモデルに報いることが、適用されたRLアルゴリズムの一般化の可能性を潜在的に強化することを明らかにしています。
さらに、3つの一般的なスケーリング戦略を体系的に調査して、ドメイン内とドメイン外の習熟度の両方を強化し、各パラダイムの効率的なスケーリングパフォーマンスに関するユニークな洞察を導き出します。
私たちの研究が、より効果的なRLアルゴリズムを開発するための将来の作業を刺激するための新しいパスを舗装し、自己回帰画像生成の領域で堅牢なCOT推論を達成することを願っています。
コードはhttps://github.com/ziyuguo99/image-generation-cotでリリースされます

要約(オリジナル)

Recent advancements underscore the significant role of Reinforcement Learning (RL) in enhancing the Chain-of-Thought (CoT) reasoning capabilities of large language models (LLMs). Two prominent RL algorithms, Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO), are central to these developments, showcasing different pros and cons. Autoregressive image generation, also interpretable as a sequential CoT reasoning process, presents unique challenges distinct from LLM-based CoT reasoning. These encompass ensuring text-image consistency, improving image aesthetic quality, and designing sophisticated reward models, rather than relying on simpler rule-based rewards. While recent efforts have extended RL to this domain, these explorations typically lack an in-depth analysis of the domain-specific challenges and the characteristics of different RL strategies. To bridge this gap, we provide the first comprehensive investigation of the GRPO and DPO algorithms in autoregressive image generation, evaluating their in-domain performance and out-of-domain generalization, while scrutinizing the impact of different reward models on their respective capabilities. Our findings reveal that GRPO and DPO exhibit distinct advantages, and crucially, that reward models possessing stronger intrinsic generalization capabilities potentially enhance the generalization potential of the applied RL algorithms. Furthermore, we systematically explore three prevalent scaling strategies to enhance both their in-domain and out-of-domain proficiency, deriving unique insights into efficiently scaling performance for each paradigm. We hope our study paves a new path for inspiring future work on developing more effective RL algorithms to achieve robust CoT reasoning in the realm of autoregressive image generation. Code is released at https://github.com/ZiyuGuo99/Image-Generation-CoT

arxiv情報

著者 Chengzhuo Tong,Ziyu Guo,Renrui Zhang,Wenyu Shan,Xinyu Wei,Zhenghao Xing,Hongsheng Li,Pheng-Ann Heng
発行日 2025-05-22 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク