Text-driven Visual Synthesis with Latent Diffusion Prior


テキストからの 3D オブジェクト合成、画像編集、カスタマイズされた生成などの汎用的なダウンストリーム アプリケーションを可能にする拡散モデルによって駆動される、大規模なテキストから画像への合成が大きく進歩しました。
これを改善するためのコアとなるアイデアは、1) 詳細なガイダンスを提供するためのデコーダの異なるレイヤーからの特徴間の特徴マッチング損失、および 2) 予測された潜在的特徴を正則化し、トレーニングを安定させるための KL 発散損失です。
テキストから 3D への変換、StyleGAN の適応、レイヤード画像編集の 3 つの異なるアプリケーションに対するアプローチの有効性を示します。


There has been tremendous progress in large-scale text-to-image synthesis driven by diffusion models enabling versatile downstream applications such as 3D object synthesis from texts, image editing, and customized generation. We present a generic approach using latent diffusion models as powerful image priors for various visual synthesis tasks. Existing methods that utilize such priors fail to use these models’ full capabilities. To improve this, our core ideas are 1) a feature matching loss between features from different layers of the decoder to provide detailed guidance and 2) a KL divergence loss to regularize the predicted latent features and stabilize the training. We demonstrate the efficacy of our approach on three different applications, text-to-3D, StyleGAN adaptation, and layered image editing. Extensive results show our method compares favorably against baselines.


著者 Ting-Hsuan Liao,Songwei Ge,Yiran Xu,Yao-Chih Lee,Badour AlBahar,Jia-Bin Huang
発行日 2023-02-16 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク