PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

要約

最先端の Text-to-Image (T2I) モデルには多額のトレーニング コスト (例: 数百万 GPU 時間) が必要であり、CO2 排出量が増加すると同時に AIGC コミュニティの根本的なイノベーションが著しく妨げられます。
この論文では、Transformer ベースの T2I 拡散モデルである PIXART-$\alpha$ を紹介します。その画像生成品質は、最先端の画像生成装置 (Imagen、SDXL、さらには Midjourney など) に匹敵し、ほぼ商用アプリケーションに到達しています。
規格。
さらに、図 1 および 2 に示すように、低トレーニング コストで最大 1024 ピクセルの高解像度画像合成をサポートします。この目標を達成するために、3 つのコア設計が提案されています。 (1) トレーニング戦略の分解: 3 つの異なるトレーニング ステップを考案します。
ピクセルの依存関係、テキストと画像の位置合わせ、画像の美的品質を個別に最適化します。
(2) 効率的な T2I トランスフォーマー: クロスアテンション モジュールを拡散トランスフォーマー (DiT) に組み込んで、テキスト条件を挿入し、計算集約的なクラス条件分岐を合理化します。
(3) 情報量の多いデータ: テキストと画像のペアにおける概念密度の重要性を強調し、大規模な視覚言語モデルを活用して高密度の疑似キャプションを自動ラベル付けし、テキストと画像の位置合わせ学習を支援します。
その結果、PIXART-$\alpha$ のトレーニング速度は既存の大規模 T2I モデルを大幅に上回ります。たとえば、PIXART-$\alpha$ は Stable Diffusion v1.5 のトレーニング時間の 10.8% しかかかりません (675 対 6,250 A100 GPU)
日)、約 300,000 ドル (26,000 ドル対 320,000 ドル) を節約し、CO2 排出量を 90% 削減します。
さらに、より大きな SOTA モデルである RAPHAEL と比較すると、トレーニング コストはわずか 1% です。
広範な実験により、PIXART-$\alpha$ が画質、芸術性、セマンティック制御の点で優れていることが実証されました。
PIXART-$\alpha$ が AIGC コミュニティやスタートアップ企業に新しい洞察を提供し、高品質でありながら低コストの独自の生成モデルをゼロから構築することを加速できることを願っています。

要約(オリジナル)

The most advanced text-to-image (T2I) models require significant training costs (e.g., millions of GPU hours), seriously hindering the fundamental innovation for the AIGC community while increasing CO2 emissions. This paper introduces PIXART-$\alpha$, a Transformer-based T2I diffusion model whose image generation quality is competitive with state-of-the-art image generators (e.g., Imagen, SDXL, and even Midjourney), reaching near-commercial application standards. Additionally, it supports high-resolution image synthesis up to 1024px resolution with low training cost, as shown in Figure 1 and 2. To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. As a result, PIXART-$\alpha$’s training speed markedly surpasses existing large-scale T2I models, e.g., PIXART-$\alpha$ only takes 10.8% of Stable Diffusion v1.5’s training time (675 vs. 6,250 A100 GPU days), saving nearly \$300,000 (\$26,000 vs. \$320,000) and reducing 90% CO2 emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training cost is merely 1%. Extensive experiments demonstrate that PIXART-$\alpha$ excels in image quality, artistry, and semantic control. We hope PIXART-$\alpha$ will provide new insights to the AIGC community and startups to accelerate building their own high-quality yet low-cost generative models from scratch.

arxiv情報

著者 Junsong Chen,Jincheng Yu,Chongjian Ge,Lewei Yao,Enze Xie,Yue Wu,Zhongdao Wang,James Kwok,Ping Luo,Huchuan Lu,Zhenguo Li
発行日 2023-10-16 14:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク