要約
離散表現を連続的な潜在空間に埋め込むことにより、連続空間潜在拡散モデルを活用して、離散データの生成モデリングを処理できます。
ただし、最初の成功にもかかわらず、ほとんどの潜在的な拡散方法は固定された前提条件の埋め込みに依存しており、拡散モデルとの共同トレーニングの利点を制限しています。
埋め込み(再構成損失を介して)と潜在的拡散モデル(スコアマッチング損失を介して)を共同で学習している間、パフォーマンスを向上させることができます。
この問題を軽減するために、トレーニングを安定させる埋め込みスペース内に連続空間潜在的拡散フレームワークであるVQ-LCMDを導入します。
VQ-LCMDは、シフトしたコサインノイズスケジュールとランダムドロップ戦略に加えて、ジョイント埋め込み拡散拡散変分の下限と一貫性マッチング(CM)損失を組み合わせた新しいトレーニング目標を使用します。
いくつかのベンチマークでの実験は、提案されたVQ-LCMDが、個別の状態潜在拡散モデルと比較して、FFHQ、LSUN教会、LSUNのベッドルームで優れた結果をもたらすことを示しています。
特に、VQ-LCMDは、50ステップのImagenetでのクラス条件付き画像生成に対して6.81のFIDを達成します。
要約(オリジナル)
By embedding discrete representations into a continuous latent space, we can leverage continuous-space latent diffusion models to handle generative modeling of discrete data. However, despite their initial success, most latent diffusion methods rely on fixed pretrained embeddings, limiting the benefits of joint training with the diffusion model. While jointly learning the embedding (via reconstruction loss) and the latent diffusion model (via score matching loss) could enhance performance, end-to-end training risks embedding collapse, degrading generation quality. To mitigate this issue, we introduce VQ-LCMD, a continuous-space latent diffusion framework within the embedding space that stabilizes training. VQ-LCMD uses a novel training objective combining the joint embedding-diffusion variational lower bound with a consistency-matching (CM) loss, alongside a shifted cosine noise schedule and random dropping strategy. Experiments on several benchmarks show that the proposed VQ-LCMD yields superior results on FFHQ, LSUN Churches, and LSUN Bedrooms compared to discrete-state latent diffusion models. In particular, VQ-LCMD achieves an FID of 6.81 for class-conditional image generation on ImageNet with 50 steps.
arxiv情報
著者 | Bac Nguyen,Chieh-Hsin Lai,Yuhta Takida,Naoki Murata,Toshimitsu Uesaka,Stefano Ermon,Yuki Mitsufuji |
発行日 | 2025-04-01 13:38:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google