ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

要約

考え方の推論と強化学習(RL)がNLPのブレークスルーを駆動していますが、生成ビジョンモデルへの統合は依存していないままです。
Reasongen-R1は、最初に、書かれた理論的根拠の新たに生成された推論データセットで監視された微調整を介して、明示的なテキストベースの「思考」スキルを自動再生画像ジェネレーターに吸収し、グループ相対ポリシーの最適化を使用して出力を改良します。
画像を生成する前にテキストを介してモデルを推論できるようにするために、視覚的なプロンプトと組み合わせたモデル作成された理論的根拠のコーパスを自動的に生成およびリリースし、オブジェクトレイアウト、スタイル、シーン構成の制御計画を可能にします。
当社のGRPOアルゴリズムは、前処理されたビジョン言語モデルからの報酬信号を使用して、全体的な視覚品質を評価し、各アップデートのポリシーを最適化します。
Geneval、DPG、およびT2Iベンチマークの評価は、Reasongen-R1が強力なベースラインと以前の最先端モデルを常に上回ることを示しています。
詳細:別名MMS/Reasongen。

要約(オリジナル)

Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based ‘thinking’ skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.

arxiv情報

著者 Yu Zhang,Yunqi Li,Yifan Yang,Rui Wang,Yuqing Yang,Dai Qi,Jianmin Bao,Dongdong Chen,Chong Luo,Lili Qiu
発行日 2025-05-30 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク