要約
潜在的な拡散モデルは、高品質の画像とビデオを生成するための主要なアプローチとして浮上しており、圧縮された潜在表現を利用して拡散プロセスの計算負担を減らしています。
最近の進歩は、主に拡散骨格のスケーリングと自動エンコーダー再構成品質の向上に焦点を当てていますが、これらのコンポーネント間の相互作用は比較的少ない注意を払っています。
この作業では、最新の自動エンコーダーのスペクトル分析を実行し、潜在的な空間で極端な高周波成分を特定します。これらは、特に大きなボトルネックチャネルサイズの自動エンコーダーで顕著です。
この高周波コンポーネントは、拡散合成プロセスの粗から繊細な性質を妨げ、生成の質を妨げると仮定します。
問題を緩和するために、スケールの等容量:デコーダーのスケール等量を強制することにより、周波数全体で潜在的な空間とRGBスペースを整列させる単純な正則化戦略を提案します。
最小限のコード変更が必要であり、最大20Kの自動エンコーダー微調整ステップのみが必要ですが、発電の品質を大幅に向上させ、Imagenet-1K 256×256およびFVDの画像生成で19%減少し、Kinetics-700 17x256x256のビデオ生成で少なくとも44%削減します。
。
要約(オリジナル)
Latent diffusion models have emerged as the leading approach for generating high-quality images and videos, utilizing compressed latent representations to reduce the computational burden of the diffusion process. While recent advancements have primarily focused on scaling diffusion backbones and improving autoencoder reconstruction quality, the interaction between these components has received comparatively less attention. In this work, we perform a spectral analysis of modern autoencoders and identify inordinate high-frequency components in their latent spaces, which are especially pronounced in the autoencoders with a large bottleneck channel size. We hypothesize that this high-frequency component interferes with the coarse-to-fine nature of the diffusion synthesis process and hinders the generation quality. To mitigate the issue, we propose scale equivariance: a simple regularization strategy that aligns latent and RGB spaces across frequencies by enforcing scale equivariance in the decoder. It requires minimal code changes and only up to 20K autoencoder fine-tuning steps, yet significantly improves generation quality, reducing FID by 19% for image generation on ImageNet-1K 256×256 and FVD by at least 44% for video generation on Kinetics-700 17x256x256.
arxiv情報
著者 | Ivan Skorokhodov,Sharath Girish,Benran Hu,Willi Menapace,Yanyu Li,Rameen Abdal,Sergey Tulyakov,Aliaksandr Siarohin |
発行日 | 2025-02-20 18:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google