REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

要約

この論文では、基本的な質問に取り組んでいます。「潜在的な拡散モデルと、変分自動エンコーダー(VAE)トークン剤とともにエンドツーエンドの方法でトレーニングできますか?」
伝統的な深い学習の知恵は、可能な限りエンドツーエンドのトレーニングが望ましいことが多いことを決定します。
ただし、潜在的な拡散トランスの場合、標準拡散損失を使用したVAEと拡散モデルの両方のエンドツーエンドトレーニングが効果的であり、最終的なパフォーマンスに分解を引き起こすことさえあることが観察されています。
拡散損失は効果がないが、エンドツーエンドのトレーニングは、表現調整(REPA)損失を通じてロック解除できることを示しています。
その単純さにもかかわらず、提案されたトレーニングレシピ(Repa-E)は驚くべきパフォーマンスを示しています。
それぞれレパとバニラのトレーニングレシピよりも17倍以上の45倍以上の拡散モデルトレーニングをスピードアップします。
興味深いことに、RepA-Eを使用したエンドツーエンドのチューニングもVAE自体を改善することがわかります。
潜在スペース構造の改善と下流の生成パフォーマンスにつながります。
最終的なパフォーマンスに関しては、私たちのアプローチは新しい最先端を設定します。
Imagenet 256 x 256で分類器のないガイダンスを伴う場合となしで1.26および1.83のFIDを達成します。コードはhttps://end2end-diffusion.github.ioで入手できます。

要約(オリジナル)

In this paper we tackle a fundamental question: ‘Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?’ Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss — allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.

arxiv情報

著者 Xingjian Leng,Jaskirat Singh,Yunzhong Hou,Zhenchang Xing,Saining Xie,Liang Zheng
発行日 2025-04-14 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク