PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

要約

現在の大規模拡散モデルは、条件付き画像合成における大きな進歩を表しており、テキスト、人間のポーズ、エッジなどの多様な手がかりを解釈できます。
ただし、大量の計算リソースと広範なデータ収集への依存が依然としてボトルネックとなっています。
一方で、それぞれが異なる制御に特化し、固有の潜在空間で動作する既存の拡散モデルの統合には、互換性のない画像解像度と潜在空間埋め込み構造により課題が生じ、それらの共同使用が妨げられます。
これらの制約に対処するために、我々は、複数の制御信号に適切に対応する、リソース効率の高いテキストから画像への合成のために設計された新しい潜在拡散モデル「PanGu-Draw」を紹介します。
まず、モノリシックなテキストから画像へのモデルを構造ジェネレーターとテクスチャジェネレーターに分割する、リソース効率の高い時間デカップリングトレーニング戦略を提案します。
各ジェネレーターは、データ利用と計算効率を最大化する計画を使用してトレーニングされ、データ準備を 48% 削減し、トレーニング リソースを 51% 削減します。
2 番目に、統合されたノイズ除去プロセス内で、異なる潜在空間と事前定義された解像度を持つさまざまな事前トレーニング済みの拡散モデルの協調使用を可能にするアルゴリズム「Coop-Diffusion」を導入します。
これにより、追加のデータや再トレーニングを必要とせずに、任意の解像度でのマルチコントロール画像合成が可能になります。
Pangu-Draw の実証的検証では、テキストから画像への生成やマルチコントロール画像の生成において優れた能力を示しており、将来のモデルのトレーニング効率と生成の多用途​​性の有望な方向性を示唆しています。
最大の 5B T2I PanGu-Draw モデルが Ascend プラットフォームでリリースされます。
プロジェクトページ: $\href{https://pangu-draw.github.io}{this~https~URL}$

要約(オリジナル)

Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present ‘PanGu-Draw’, a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce ‘Coop-Diffusion’, an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: $\href{https://pangu-draw.github.io}{this~https~URL}$

arxiv情報

著者 Guansong Lu,Yuanfan Guo,Jianhua Han,Minzhe Niu,Yihan Zeng,Songcen Xu,Zeyi Huang,Zhao Zhong,Wei Zhang,Hang Xu
発行日 2023-12-29 01:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク