Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

要約

Web スケールの画像とテキストのペアを使用してテキストから画像へのモデルをトレーニングすると、テキストから幅広い視覚的概念を生成できます。
ただし、これらの事前トレーニング済みモデルは、非常に美的な画像を生成する際に課題に直面することがよくあります。
このため、事前トレーニング後に審美的な調整が必要になります。
この論文では、ビジュアルコンセプト全体にわたる汎用性を維持しながら、視覚的に魅力的な画像のみを生成するように事前トレーニングされたモデルを効果的に導く品質チューニングを提案します。
私たちの重要な洞察は、驚くほど小さいが非常に視覚的に魅力的な一連の画像を使用して教師付き微調整を行うことで、生成品質を大幅に向上できるということです。
私たちは、11億ドルの画像とテキストのペアで潜在拡散モデルを事前トレーニングし、厳選されたわずか数千枚の高品質画像を使用して微調整します。
結果として得られたモデルである Emu は、事前トレーニングのみのモデルと比較して $82.9\%$ の勝率を達成しました。
最先端の SDXLv1.0 と比較して、エミュは、標準の PartiPrompts および実際の使用状況に基づくオープン ユーザー入力ベンチマークでの視覚的な魅力の点で、現時点で $68.4\%$ および $71.3\%$ が好まれています。
テキストから画像へのモデル。
さらに、品質チューニングは、ピクセル拡散やマスクされた生成変換モデルなどの他のアーキテクチャにも有効な一般的なアプローチであることを示します。

要約(オリジナル)

Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on $1.1$ billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of $82.9\%$ compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred $68.4\%$ and $71.3\%$ of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.

arxiv情報

著者 Xiaoliang Dai,Ji Hou,Chih-Yao Ma,Sam Tsai,Jialiang Wang,Rui Wang,Peizhao Zhang,Simon Vandenhende,Xiaofang Wang,Abhimanyu Dubey,Matthew Yu,Abhishek Kadian,Filip Radenovic,Dhruv Mahajan,Kunpeng Li,Yue Zhao,Vladan Petrovic,Mitesh Kumar Singh,Simran Motwani,Yi Wen,Yiwen Song,Roshan Sumbaly,Vignesh Ramanathan,Zijian He,Peter Vajda,Devi Parikh
発行日 2023-09-27 17:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク