EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

要約

潜在的な生成モデルは、高品質の画像合成の主要なアプローチとして浮上しています。
これらのモデルは、自動エンコーダーに依存して画像を潜在スペースに圧縮し、その後に生成モデルが続き、潜在的な分布を学習します。
既存の自動エンコーダーには、スケーリングや回転などのセマンティックプレゼントの変換との等容量がなく、生成パフォーマンスを妨げる複雑な潜在スペースをもたらすことを特定します。
これに対処するために、潜在空間での等量性を強化する簡単な正則化アプローチであるEQ-Vaeを提案し、再構成の質を低下させることなくその複雑さを減らします。
EQ-VAEを使用して事前に訓練された自動エンコーダーを微調整することにより、DIT、SIT、Repa、MaskGITを含むいくつかの最先端の生成モデルのパフォーマンスを強化し、DIT-XL/2で7つのエポックで7スピードアップを達成します。
sd-vaeの微調整。
EQ-VAEは、連続的および離散的な自動エンコーダーの両方と互換性があるため、広範囲の潜在的な生成モデルに多用途の強化が提供されます。
プロジェクトページとコード:https://eq-vae.github.io/。

要約(オリジナル)

Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

arxiv情報

著者 Theodoros Kouzelis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis
発行日 2025-02-14 13:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク