要約
最近、普及モデルは Text-to-Image (T2I) 生成において目覚ましい進歩を遂げ、忠実度の高い多様なコンテンツの画像を合成します。
この進歩にもかかわらず、拡散モデル内の潜在的な空間の滑らかさはほとんど解明されていないままです。
滑らかな潜在空間により、入力潜在の摂動が出力画像の安定した変化に対応することが保証されます。
このプロパティは、画像の補間、反転、編集などの下流タスクで有益であることがわかります。
この研究では、小さな潜在的な変動から生じる顕著な視覚的変動を観察することにより、拡散潜在空間の非滑らかさを明らかにします。
この問題に取り組むために、私たちはスムーズ ディフュージョンを提案します。これは、高性能でありながらスムーズであることを同時に実現できる新しいカテゴリーの拡散モデルです。
具体的には、ステップワイズ変動正則化を導入して、任意の入力潜在の変動と出力画像の変動の間の比率がどの拡散トレーニング ステップでも一定になるように強制します。
さらに、拡散モデルの潜在空間の滑らかさを効果的に評価するための内挿標準偏差 (ISTD) メトリクスを考案しました。
広範な定量的および定性的な実験により、スムーズ拡散は、T2I 生成だけでなく、さまざまな下流タスクにわたってより望ましいソリューションとして際立っていることが実証されています。
Smooth Diffusion は、さまざまなコミュニティ モデルと連携するプラグ アンド プレイの Smooth-LoRA として実装されています。
コードは https://github.com/SHI-Labs/Smooth-Diffusion で入手できます。
要約(オリジナル)
Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. Smooth latent spaces ensure that a perturbation on an input latent corresponds to a steady change in the output image. This property proves beneficial in downstream tasks, including image interpolation, inversion, and editing. In this work, we expose the non-smoothness of diffusion latent spaces by observing noticeable visual fluctuations resulting from minor latent variations. To tackle this issue, we propose Smooth Diffusion, a new category of diffusion models that can be simultaneously high-performing and smooth. Specifically, we introduce Step-wise Variation Regularization to enforce the proportion between the variations of an arbitrary input latent and that of the output image is a constant at any diffusion training step. In addition, we devise an interpolation standard deviation (ISTD) metric to effectively assess the latent space smoothness of a diffusion model. Extensive quantitative and qualitative experiments demonstrate that Smooth Diffusion stands out as a more desirable solution not only in T2I generation but also across various downstream tasks. Smooth Diffusion is implemented as a plug-and-play Smooth-LoRA to work with various community models. Code is available at https://github.com/SHI-Labs/Smooth-Diffusion.
arxiv情報
著者 | Jiayi Guo,Xingqian Xu,Yifan Pu,Zanlin Ni,Chaofei Wang,Manushree Vasu,Shiji Song,Gao Huang,Humphrey Shi |
発行日 | 2023-12-07 16:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google