要約
一貫性モデル (CM) は最近、拡散モデルの生成を加速する上で大きな進歩を遂げました。
ただし、潜在空間 (別名 LCM) での高解像度のテキスト条件付き画像生成への応用は依然として不十分です。
このペーパーでは、LCM の現在の設計における 3 つの主要な欠陥を特定します。
私たちはこれらの制限の背後にある理由を調査し、設計空間を一般化し、特定されたすべての制限に対処する段階的一貫性モデル (PCM) を提案します。
私たちの評価では、PCM が 1 ~ 16 ステップの生成設定全体で LCM よりも大幅に優れていることが実証されています。
PCM は特にマルチステップ リファインメント用に設計されていますが、以前に特別に設計された最先端の 1 ステップ メソッドよりもさらに優れた、または同等の 1 ステップ生成結果を達成します。
さらに、PCM の方法論が多用途であり、ビデオ生成に適用できるため、最先端の数ステップのテキストからビデオへのジェネレーターをトレーニングできることを示します。
詳細については、https://g-u-n.github.io/projects/pcm/ をご覧ください。
要約(オリジナル)
The consistency model (CM) has recently made significant progress in accelerating the generation of diffusion models. However, its application to high-resolution, text-conditioned image generation in the latent space (a.k.a., LCM) remains unsatisfactory. In this paper, we identify three key flaws in the current design of LCM. We investigate the reasons behind these limitations and propose the Phased Consistency Model (PCM), which generalizes the design space and addresses all identified limitations. Our evaluations demonstrate that PCM significantly outperforms LCM across 1–16 step generation settings. While PCM is specifically designed for multi-step refinement, it achieves even superior or comparable 1-step generation results to previously state-of-the-art specifically designed 1-step methods. Furthermore, we show that PCM’s methodology is versatile and applicable to video generation, enabling us to train the state-of-the-art few-step text-to-video generator. More details are available at https://g-u-n.github.io/projects/pcm/.
arxiv情報
著者 | Fu-Yun Wang,Zhaoyang Huang,Alexander William Bergman,Dazhong Shen,Peng Gao,Michael Lingelbach,Keqiang Sun,Weikang Bian,Guanglu Song,Yu Liu,Hongsheng Li,Xiaogang Wang |
発行日 | 2024-05-28 17:47:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google