要約
思考連鎖 (CoT) 推論は、複雑な理解タスクに取り組むために、大規模なモデルで広く研究されてきました。
ただし、そのような戦略を画像生成シナリオの検証と強化に適用できるかどうかは、依然として未解決の問題です。
この論文では、自己回帰画像生成を強化する CoT 推論の可能性についての最初の包括的な調査を提供します。
私たちは、検証のためのテスト時の計算のスケーリング、直接優先最適化 (DPO) によるモデルの優先順位の調整、補完的な効果を得るためにこれらの手法を統合するという 3 つの手法に焦点を当てています。
私たちの結果は、これらのアプローチを効果的に適応および組み合わせて、画像生成パフォーマンスを大幅に向上できることを示しています。
さらに、我々の調査結果における報酬モデルの重要な役割を考慮して、自己回帰画像生成に特化した潜在的評価報酬モデル (PARM) および PARM++ を提案します。
PARM は、潜在的な評価アプローチを通じて各生成ステップを適応的に評価し、既存の報酬モデルの長所を統合します。また、PARM++ は、生成された不満足なイメージを自己修正するための反映メカニズムをさらに導入します。
調査した推論戦略を使用してベースライン モデル Show-o を強化し、GenEval ベンチマークで +24% という大幅な改善を達成し、Stable Diffusion 3 を +15% 上回る優れた結果を達成しました。
私たちの研究が独自の洞察を提供し、CoT 推論と自己回帰画像生成を統合するための新しい道を開くことを願っています。
コードとモデルは https://github.com/ZiyuGuo99/Image-Generation-CoT でリリースされています。
要約(オリジナル)
Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT
arxiv情報
著者 | Ziyu Guo,Renrui Zhang,Chengzhuo Tong,Zhizheng Zhao,Peng Gao,Hongsheng Li,Pheng-Ann Heng |
発行日 | 2025-01-23 18:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google