要約
潜在整合性モデル (LCM) は、テキストから画像への生成タスクの高速化において優れたパフォーマンスを達成し、最小限の推論ステップで高品質の画像を生成します。
LCM は、事前トレーニングされた潜在拡散モデル (LDM) から抽出され、必要な A100 GPU トレーニング時間はわずか約 32 時間です。
このレポートは、LCM の可能性を 2 つの側面でさらに拡張します。まず、LoRA 蒸留を SD-V1.5、SSD-1B、SDXL などの安定拡散モデルに適用することで、メモリ消費量が大幅に少ない大規模モデルに LCM の適用範囲を拡大しました。
優れた画像生成品質を実現します。
次に、LCM 蒸留によって得られた LoRA パラメータを、LCM-LoRA という名前の汎用安定拡散加速モジュールとして特定します。
LCM-LoRA は、トレーニングなしでさまざまな安定拡散微調整モデルまたは LoRA に直接接続できるため、さまざまな画像生成タスクに汎用的に適用できるアクセラレーターとなります。
DDIM、DPM-Solver などの以前の数値 PF-ODE ソルバーと比較して、LCM-LoRA は、強力な汎化能力を備えたプラグイン ニューラル PF-ODE ソルバーとみなすことができます。
プロジェクトページ: https://github.com/luosiallen/latent-consistency-model。
要約(オリジナル)
Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs’ potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM’s scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
arxiv情報
著者 | Simian Luo,Yiqin Tan,Suraj Patil,Daniel Gu,Patrick von Platen,Apolinário Passos,Longbo Huang,Jian Li,Hang Zhao |
発行日 | 2023-11-09 18:04:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google