ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

要約

Text-to-Image (T2I) モデルは近年大幅に進歩しましたが、複雑な構成プロンプトで指定された複雑な詳細を正確にキャプチャするのに依然として苦労しています。
報酬目標を設定して T2I モデルを微調整することは有望ですが、「報酬ハッキング」の影響を受けており、目に見えないプロンプト配布にはうまく一般化できない可能性があります。
この研究では、1 つまたは複数の人間の好みの報酬モデルからの信号に基づいて初期ノイズを最適化することで、推論時の T2I モデルを強化する新しいアプローチである報酬ベースのノイズ最適化 (ReNO) を提案します。
注目すべきことに、この最適化問題を勾配上昇法で 50 回反復して解くと、2 つの競合ベンチマークである T2I-CompBench と GenEval にわたる 4 つの異なるワンステップ モデルで素晴らしい結果が得られます。
20 ~ 50 秒の計算量内で、ReNO で強化されたワンステップ モデルは、現在のすべてのオープンソース Text-to-Image モデルのパフォーマンスを常に上回ります。
広範なユーザー調査により、当社のモデルは人気のある SDXL モデルと比較してほぼ 2 倍好まれており、8B パラメーターを備えた独自の Stable Diffusion 3 と同等であることが実証されています。
さらに、同じ計算リソースを与えた場合、ReNO に最適化されたワンステップ モデルは、SDXL や PixArt-$\alpha$ などの広く使用されているオープンソース モデルよりも優れたパフォーマンスを示し、推論時の T2I モデルのパフォーマンス向上における ReNO の効率と有効性を強調しています。

コードは https://github.com/ExplainableML/ReNO で入手できます。

要約(オリジナル)

Text-to-Image (T2I) models have made significant advancements in recent years, but they still struggle to accurately capture intricate details specified in complex compositional prompts. While fine-tuning T2I models with reward objectives has shown promise, it suffers from ‘reward hacking’ and may not generalize well to unseen prompt distributions. In this work, we propose Reward-based Noise Optimization (ReNO), a novel approach that enhances T2I models at inference by optimizing the initial noise based on the signal from one or multiple human preference reward models. Remarkably, solving this optimization problem with gradient ascent for 50 iterations yields impressive results on four different one-step models across two competitive benchmarks, T2I-CompBench and GenEval. Within a computational budget of 20-50 seconds, ReNO-enhanced one-step models consistently surpass the performance of all current open-source Text-to-Image models. Extensive user studies demonstrate that our model is preferred nearly twice as often compared to the popular SDXL model and is on par with the proprietary Stable Diffusion 3 with 8B parameters. Moreover, given the same computational resources, a ReNO-optimized one-step model outperforms widely-used open-source models such as SDXL and PixArt-$\alpha$, highlighting the efficiency and effectiveness of ReNO in enhancing T2I model performance at inference time. Code is available at https://github.com/ExplainableML/ReNO.

arxiv情報

著者 Luca Eyring,Shyamgopal Karthik,Karsten Roth,Alexey Dosovitskiy,Zeynep Akata
発行日 2024-06-06 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク