A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

要約

テキストから画像への拡散モデルは、ここ数年で機能が大幅に向上し、テキスト プロンプトから高品質で多様な画像の合成が可能になりました。
ただし、最も先進的なモデルであっても、プロンプトのすべての指示に正確に従うのは難しいことがよくあります。
これらのモデルの大部分は、(画像、キャプション) のペアで構成されるデータセットでトレーニングされます。画像は多くの場合 Web から取得され、キャプションは HTML の代替テキストです。
注目すべき例は、安定拡散および他のモデルで使用される LAION データセットです。
この研究では、これらのキャプションが低品質であることが多いことを観察し、これがテキスト プロンプトの微妙な意味論を理解するモデルの能力に大きな影響を与えると主張します。
特殊な自動キャプション モデルでコーパスのラベルを再設定し、再キャプションされたデータセットでテキストから画像へのモデルをトレーニングすることによって、モデルが全面的に大幅なメリットを得られることを示します。
まず、全体的な画質についてです。
FID 14.84 対ベースライン 17.87、人間の評価によると忠実な画像生成が 64.3% 向上しました。
第二に、セマンティックな調整において、例えば
セマンティック オブジェクトの精度は 84.34 対 78.90、カウント アライメント エラーは 1.32 対 1.44、位置アライメントは 62.42 対 57.60 でした。
私たちは、コーパスを再ラベルするさまざまな方法を分析し、RECAP と呼ばれるこの手法が、トレーニングと推論の不一致を軽減し、モデルに例ごとにより多くの情報を提供して、サンプル効率を高め、モデルがデータ間の関係をよりよく理解できるようにするという証拠を提供します。
キャプションと画像。

要約(オリジナル)

Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model’s capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.

arxiv情報

著者 Eyal Segalis,Dani Valevski,Danny Lumen,Yossi Matias,Yaniv Leviathan
発行日 2023-10-25 14:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク