Text-driven Visual Synthesis with Latent Diffusion Prior

要約

テキストからの 3D オブジェクト合成、画像編集、カスタマイズされた生成などの汎用的なダウンストリーム アプリケーションを可能にする拡散モデルによって駆動される、大規模なテキストから画像への合成が大きく進歩しました。
潜在拡散モデルをさまざまな視覚合成タスクの強力な画像事前分布として使用する一般的なアプローチを提示します。
このような事前確率を利用する既存の方法では、これらのモデルのすべての機能を使用できません。
これを改善するためのコアとなるアイデアは、1) 詳細なガイダンスを提供するためのデコーダの異なるレイヤーからの特徴間の特徴マッチング損失、および 2) 予測された潜在的特徴を正則化し、トレーニングを安定させるための KL 発散損失です。
テキストから 3D への変換、StyleGAN の適応、レイヤード画像編集の 3 つの異なるアプリケーションに対するアプローチの有効性を示します。
広範な結果は、私たちの方法がベースラインと比較して有利であることを示しています。

要約(オリジナル)

There has been tremendous progress in large-scale text-to-image synthesis driven by diffusion models enabling versatile downstream applications such as 3D object synthesis from texts, image editing, and customized generation. We present a generic approach using latent diffusion models as powerful image priors for various visual synthesis tasks. Existing methods that utilize such priors fail to use these models’ full capabilities. To improve this, our core ideas are 1) a feature matching loss between features from different layers of the decoder to provide detailed guidance and 2) a KL divergence loss to regularize the predicted latent features and stabilize the training. We demonstrate the efficacy of our approach on three different applications, text-to-3D, StyleGAN adaptation, and layered image editing. Extensive results show our method compares favorably against baselines.

arxiv情報

著者 Ting-Hsuan Liao,Songwei Ge,Yiran Xu,Yao-Chih Lee,Badour AlBahar,Jia-Bin Huang
発行日 2023-02-16 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク