Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training

要約

拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で目覚ましい性能を示している。このアルゴリズムは、従来のGANや変換器ベースの手法よりも優れた性能を示す。しかしながら、自然言語の指示(例えば、オブジェクト間の空間的関係、複雑なシーンの生成)に従うモデルの能力はまだ満足できるものではない。このような能力を強化することは重要な研究分野である。先行研究では、強化学習を使用することで、特定の目的に対する忠実度を高めるために拡散モデルを効果的に訓練できることが示されている。しかし、既存のRL手法は、効果的な報酬モデルを訓練するために大量のデータを収集する必要がある。また、生成された画像が不正確であった場合にフィードバックを受け取ることができない。本研究では、反復的画像サンプリングとプロンプト再ラベリングにより、画像とテキストを整合させる新しいアルゴリズムである反復プロンプト再ラベリング(IPR)を提案する。IPRはまず、テキストを条件とする画像のバッチをサンプリングし、次に、分類器のフィードバックを用いて、一致しないテキストと画像のペアのテキストプロンプトを再ラベル化する。我々はSDv2とSDXLで徹底的な実験を行い、空間関係の指示に従う能力をテストした。IPRを用いることで、難易度の高い空間関係VISORベンチマークにおいて、最大15.22%(絶対改善)の改善が見られ、従来のRL手法と比較して優れた性能が実証された。

要約(オリジナル)

Diffusion models have shown impressive performance in many domains, including image generation, time series prediction, and reinforcement learning. The algorithm demonstrates superior performance over the traditional GAN and transformer-based methods. However, the model’s capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. It has been an important research area to enhance such capability. Prior works have shown that using Reinforcement Learning can effectively train diffusion models to enhance fidelity on specific objectives. However, existing RL methods require collecting a large amount of data to train an effective reward model. They also don’t receive feedback when the generated image is incorrect. In this work, we propose Iterative Prompt Relabeling (IPR), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling. IPR first samples a batch of images conditioned on the text then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on SDv2 and SDXL, testing their capability to follow instructions on spatial relations. With IPR, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods.

arxiv情報

著者 Xinyan Chen,Jiaxin Ge,Tianjun Zhang,Jiaming Liu,Shanghang Zhang
発行日 2024-07-05 15:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク