How far can we go with ImageNet for Text-to-Image generation?

要約

最近のテキストからイメージの生成モデルは、「より大きなISが優れている」パラダイムに続いて、可用性(クローズド対オープンソースとオープンソース)と再現性(データディケイク対確立されたコレクション)よりも優先されるパラダイムに続いて、10億個のデータセットでトレーニングすることで顕著な結果を達成しました。
よく設計されたテキストと画像の増強で強化されたImagENetのみを使用して、大規模なWebスクレイプコレクションでトレーニングされたモデルと一致またはアウトパフォームすることができることを実証することにより、この確立されたパラダイムに挑戦します。
このはるかにシンプルなセットアップにより、GenevalのSD-XLよりも +1%の総スコア、DPGBenchで +0.5%を達成しながら、パラメーターを1/10、トレーニング画像を1/1000番目に使用します。
Imagenetは広く利用可能なデータセットであり、当社の標準化されたトレーニングセットアップには大規模な計算リソースが必要ないため、これにより再現性のある研究への道が開かれます。

要約(オリジナル)

Recent text-to-image generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better’ paradigm that prioritizes data quantity over availability (closed vs open source) and reproducibility (data decay vs established collections). We challenge this established paradigm by demonstrating that one can match or outperform models trained on massive web-scraped collections, using only ImageNet enhanced with well-designed text and image augmentations. With this much simpler setup, we achieve a +1% overall score over SD-XL on GenEval and +0.5% on DPGBench while using just 1/10th the parameters and 1/1000th the training images. This opens the way for more reproducible research as ImageNet is a widely available dataset and our standardized training setup does not require massive compute resources.

arxiv情報

著者 L. Degeorge,A. Ghosh,N. Dufour,D. Picard,V. Kalogeiton
発行日 2025-05-21 15:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク