要約
生成 AI のスケーリングの法則がパフォーマンスを高めると同時に、大量の計算リソースを持つアクターの間でこれらのモデルの開発が集中します。
Text-to-Image (T2I) 生成モデルに焦点を当て、大規模な T2I 拡散トランス モデルの非常に低コストのトレーニングを実証することで、このボトルネックに対処することを目指しています。
各画像内のパッチの数に応じてトランスフォーマーの計算コストが増加するため、トレーニング中に画像パッチの最大 75% をランダムにマスクすることを提案します。
我々は、マスキング前にパッチミキサーを使用してすべてのパッチを前処理する遅延マスキング戦略を提案します。これにより、マスキングによるパフォーマンスの低下が大幅に軽減され、計算コストの削減においてモデルのダウンスケーリングよりも優れています。
また、パフォーマンスを向上させ、マイクロ予算のトレーニングで合成画像を使用することの重要な利点をさらに特定するために、エキスパート混合レイヤーの使用など、トランスフォーマー アーキテクチャの最新の改良点も組み込んでいます。
最後に、公開されている 3,700 万枚の実際の画像と合成画像のみを使用して、わずか 1,890 ドルの経済的なコストで 11 億 6,000 万パラメータのスパース トランスフォーマーをトレーニングし、COCO データセットのゼロショット生成で 12.7 FID を達成しました。
特に、私たちのモデルは競争力のある FID と高品質の生成を実現しながら、安定拡散モデルよりも 118 倍のコストを実現し、28,400 ドルかかる現在の最先端のアプローチよりも 14 倍のコストを実現しています。
私たちは、エンドツーエンドのトレーニング パイプラインをリリースして、小規模な予算で大規模な普及モデルのトレーニングをさらに民主化することを目指しています。
要約(オリジナル)
As scaling laws in generative AI push performance, they also simultaneously concentrate the development of these models among actors with large computational resources. With a focus on text-to-image (T2I) generative models, we aim to address this bottleneck by demonstrating very low-cost training of large-scale T2I diffusion transformer models. As the computational cost of transformers increases with the number of patches in each image, we propose to randomly mask up to 75% of the image patches during training. We propose a deferred masking strategy that preprocesses all patches using a patch-mixer before masking, thus significantly reducing the performance degradation with masking, making it superior to model downscaling in reducing computational cost. We also incorporate the latest improvements in transformer architecture, such as the use of mixture-of-experts layers, to improve performance and further identify the critical benefit of using synthetic images in micro-budget training. Finally, using only 37M publicly available real and synthetic images, we train a 1.16 billion parameter sparse transformer with only \$1,890 economical cost and achieve a 12.7 FID in zero-shot generation on the COCO dataset. Notably, our model achieves competitive FID and high-quality generations while incurring 118$\times$ lower cost than stable diffusion models and 14$\times$ lower cost than the current state-of-the-art approach that costs \$28,400. We aim to release our end-to-end training pipeline to further democratize the training of large-scale diffusion models on micro-budgets.
arxiv情報
著者 | Vikash Sehwag,Xianghao Kong,Jingtao Li,Michael Spranger,Lingjuan Lyu |
発行日 | 2024-07-22 17:23:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google