GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約

視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進歩を遂げましたが、正確な空間的関係と属性を持つ複数のオブジェクトを指定する複雑なプロンプトと闘っています。
このようなプロンプトを効果的に処理するには、セマンティックコンテンツと空間レイアウトに関する明示的な推論が必要です。
視覚生成における意味空間的推論を強化するために強化学習を適用するフレームワークであるGOT-R1を紹介します。
GOT-R1は、世代を込めて考えられたチェーンアプローチに基づいて、モデルが慎重に設計された強化学習を通じて、事前定義されたテンプレートを超えた効果的な推論戦略を自律的に発見できるようにします。
これを達成するために、MLLMを活用して推論プロセスと最終出力の両方を評価するデュアルステージの多次元報酬フレームワークを提案し、世代全体のパイプライン全体で効果的な監督を可能にします。
報酬システムは、統一されたアプローチでセマンティックアライメント、空間精度、視覚品質を評価します。
実験結果は、特に正確な空間的関係と属性結合を含む組成タスクにおいて、T2Iコンピベンチベンチマークの大幅な改善を示しています。
GoT-R1は、洗練された推論機能を視覚生成ドメインに正常に転送することにより、画像生成の最先端の最先端を進めます。
将来の研究を促進するために、https://github.com/gogoduan/got-r1で公開されているコードと事前処理モデルを公開しています。

要約(オリジナル)

Visual generation models have made remarkable progress in creating realistic images from text prompts, yet struggle with complex prompts that specify multiple objects with precise spatial relationships and attributes. Effective handling of such prompts requires explicit reasoning about the semantic content and spatial layout. We present GoT-R1, a framework that applies reinforcement learning to enhance semantic-spatial reasoning in visual generation. Building upon the Generation Chain-of-Thought approach, GoT-R1 enables models to autonomously discover effective reasoning strategies beyond predefined templates through carefully designed reinforcement learning. To achieve this, we propose a dual-stage multi-dimensional reward framework that leverages MLLMs to evaluate both the reasoning process and final output, enabling effective supervision across the entire generation pipeline. The reward system assesses semantic alignment, spatial accuracy, and visual quality in a unified approach. Experimental results demonstrate significant improvements on T2I-CompBench benchmark, particularly in compositional tasks involving precise spatial relationships and attribute binding. GoT-R1 advances the state-of-the-art in image generation by successfully transferring sophisticated reasoning capabilities to the visual generation domain. To facilitate future research, we make our code and pretrained models publicly available at https://github.com/gogoduan/GoT-R1.

arxiv情報

著者 Chengqi Duan,Rongyao Fang,Yuqing Wang,Kun Wang,Linjiang Huang,Xingyu Zeng,Hongsheng Li,Xihui Liu
発行日 2025-05-22 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク