Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

要約

潜在的な拡散モデル(LDMS)は、不安定な生成プロセスを持つことが知られています。このプロセスでは、入力ノイズの小さな摂動やシフトでさえ、出力が大幅に異なる可能性があります。
これにより、一貫した結果が必要なアプリケーションでの適用性が妨げられます。
この作業では、LDMSを再設計して、シフトエクイバリントにすることで一貫性を高めます。
アンチエイリアシング操作を導入することは、シフトの識別を部分的に改善する可能性がありますが、1)VAEトレーニングと複数のU-NET推論、および2)シフトエクイバリアンスを本質的に欠く自己触媒モジュールを含む、LDMSの独自の課題により、重要なエイリアシングと矛盾が持続します。
これらの問題に対処するために、注意モジュールを再設計して、シフトエクイバリアントになり、連続ドメイン内の特徴の周波数帯域幅を効果的に抑制する等拡大損失を提案します。
結果として得られるエイリアスフリーのLDM(AF-LDM)は、強力なシフト識別を実現し、不規則な反りに対しても堅牢です。
広範な実験は、AF-LDMが、ビデオ編集や画像間翻訳など、さまざまなアプリケーションでバニラLDMよりも大幅に一貫した結果を生成することを示しています。
コードは、https://github.com/singlezombie/afldmで入手できます

要約(オリジナル)

Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

arxiv情報

著者 Yifan Zhou,Zeqi Xiao,Shuai Yang,Xingang Pan
発行日 2025-03-12 14:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク