要約
最近のテキスト間拡散モデルは、トレーニングデータとモデルパラメーターの広範なスケーリングを通じて印象的な視覚品質を実現しますが、しばしば複雑なシーンや細かい詳細に苦労しています。
大規模な言語モデルに出現する自己反射能力に触発され、拡散モデルが出力を反映して改良できる推論時間フレームワークであるReflectionFlowを提案します。
ReflectionFlowは、3つの相補的な推論時間スケーリング軸を導入します。(1)潜在的な初期化を最適化するためのノイズレベルのスケーリング。
(2)正確なセマンティックガイダンスのためのプロンプトレベルのスケーリング。
特に、(3)反射レベルのスケーリングは、以前の世代を繰り返し評価および修正するための実用的な反射を明示的に提供します。
反射レベルのスケーリングを容易にするために、それぞれが反射、欠陥のある画像、拡張画像を含む100万のトリプレットを含む大規模なデータセットであるGunrefを構築します。
このデータセットを活用して、統一されたフレームワーク内でマルチモーダル入力を共同でモデル化することにより、最先端の拡散トランス、Flux.1-Devの反射チューニングを効率的に実行します。
実験結果は、リフレクションフローが素朴なノイズレベルのスケーリング方法を大幅に上回ることを示しており、挑戦的なタスクに関する高品質の画像合成に対してスケーラブルで計算効率の良いソリューションを提供します。
要約(オリジナル)
Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.
arxiv情報
著者 | Le Zhuo,Liangbing Zhao,Sayak Paul,Yue Liao,Renrui Zhang,Yi Xin,Peng Gao,Mohamed Elhoseiny,Hongsheng Li |
発行日 | 2025-04-22 17:58:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google