Getting it Right: Improving Spatial Consistency in Text-to-Image Models

要約

現在のテキストから画像への (T2I) モデルの主な欠点の 1 つは、テキスト プロンプトで指定された空間関係に忠実に従う画像を一貫して生成できないことです。
この論文では、この制限の包括的な調査を提供すると同時に、T2I モデルの空間推論を改善するためのアルゴリズム ソリューションをサポートするデータセットと手法を開発します。
現在の視覚言語データセットにある画像記述では、空間的関係が過小評価されていることがわかりました。
このデータのボトルネックを軽減するために、私たちは、広く使用されている 4 つの視覚データセットから 600 万枚の画像に再キャプションを付け、3 重の評価および分析パイプラインを通じて、初の空間的に焦点を当てた大規模データセットである SPRIGHT を作成し、SPRIGHT が比率を向上させることを示しました。
既存のデータセット内の空間関係の。
SPRIGHT の $\sim$0.25% のみを使用すると、空間的に正確な画像の生成が 22% 向上し、同時に FID および CMMD スコアも向上することを示すことで、SPRIGHT データの有効性を示します。
また、より多くのオブジェクトを含む画像でトレーニングすると、500 枚未満の画像を微調整することによる空間スコア 0.2133 の T2I-CompBench での最先端の結果を含め、空間の一貫性が大幅に向上することもわかりました。
一連の制御された実験とアブレーションを通じて、テキストから画像へのモデルにおける空間的一貫性に影響を与える要因を理解しようとする将来の研究をサポートする可能性のある追加の発見を文書化します。

要約(オリジナル)

One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that support algorithmic solutions to improve spatial reasoning in T2I models. We find that spatial relationships are under-represented in the image descriptions found in current vision-language datasets. To alleviate this data bottleneck, we create SPRIGHT, the first spatially focused, large-scale dataset, by re-captioning 6 million images from 4 widely used vision datasets and through a 3-fold evaluation and analysis pipeline, show that SPRIGHT improves the proportion of spatial relationships in existing datasets. We show the efficacy of SPRIGHT data by showing that using only $\sim$0.25% of SPRIGHT results in a 22% improvement in generating spatially accurate images while also improving FID and CMMD scores. We also find that training on images containing a larger number of objects leads to substantial improvements in spatial consistency, including state-of-the-art results on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Through a set of controlled experiments and ablations, we document additional findings that could support future work that seeks to understand factors that affect spatial consistency in text-to-image models.

arxiv情報

著者 Agneet Chatterjee,Gabriela Ben Melech Stan,Estelle Aflalo,Sayak Paul,Dhruba Ghosh,Tejas Gokhale,Ludwig Schmidt,Hannaneh Hajishirzi,Vasudev Lal,Chitta Baral,Yezhou Yang
発行日 2024-08-06 17:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク