PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

要約

この技術レポートでは、潜在整合性モデル (LCM) と ControlNet を高度な PIXART-{\alpha} モデルに統合するテキストから画像への合成フレームワークである PIXART-{\delta} を紹介します。
PIXART-{\alpha} は、驚くほど効率的なトレーニング プロセスを通じて解像度 1024 ピクセルの高品質画像を生成する機能で知られています。
PIXART-{\delta} に LCM を統合すると、推論速度が大幅に高速化され、わずか 2 ~ 4 ステップで高品質の画像を生成できるようになります。
特に、PIXART-{\delta} は 1024×1024 ピクセル画像の生成に 0.5 秒という画期的な時間を達成しており、PIXART-{\alpha} と比較して 7 倍の改善を示しています。
さらに、PIXART-{\delta} は、32GB V100 GPU で 1 日以内に効率的にトレーニングできるように設計されています。
8 ビット推論機能 (von Platen et al., 2023) により、PIXART-{\delta} は 8 GB GPU メモリの制約内で 1024 ピクセルの画像を合成でき、使いやすさとアクセシビリティが大幅に向上します。
さらに、ControlNet のようなモジュールを組み込むことで、テキストから画像への拡散モデルをきめ細かく制御できるようになります。
Transformer 向けに特別に調整された新しい ControlNet-Transformer アーキテクチャを導入し、高品質の画像生成と同時に明示的な制御性を実現します。
最先端のオープンソース画像生成モデルとして、PIXART-{\delta} は Stable Diffusion ファミリのモデルに代わる有望な代替モデルを提供し、テキストから画像への合成に大きく貢献します。

要約(オリジナル)

This technical report introduces PIXART-{\delta}, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its ability to generate high-quality images of 1024px resolution through a remarkably efficient training process. The integration of LCM in PIXART-{\delta} significantly accelerates the inference speed, enabling the production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta} achieves a breakthrough 0.5 seconds for generating 1024×1024 pixel images, marking a 7x improvement over the PIXART-{\alpha}. Additionally, PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs within a single day. With its 8-bit inference capability (von Platen et al., 2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory constraints, greatly enhancing its usability and accessibility. Furthermore, incorporating a ControlNet-like module enables fine-grained control over text-to-image diffusion models. We introduce a novel ControlNet-Transformer architecture, specifically tailored for Transformers, achieving explicit controllability alongside high-quality image generation. As a state-of-the-art, open-source image generation model, PIXART-{\delta} offers a promising alternative to the Stable Diffusion family of models, contributing significantly to text-to-image synthesis.

arxiv情報

著者 Junsong Chen,Yue Wu,Simian Luo,Enze Xie,Sayak Paul,Ping Luo,Hang Zhao,Zhenguo Li
発行日 2024-01-10 16:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク