ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

要約

生成モデルの最近の進歩により、特に意味的な詳細とローカルフィデリティの顕著な回復を提供する強力な拡散モデルを通じて、画像修復能力が大幅に改善されました。
ただし、これらのモデルを超高解像度に展開することは、長距離の注意メカニズムの計算要求により、品質と効率の間の重要なトレードオフに直面しています。
これに対処するために、高解像度の画像回復のための効率、スケーラビリティ、および長距離モデリングを強化する新しいフレームワークであるZipirを紹介します。
Zipirは、画像32xを圧縮する高度に圧縮された潜在表現を採用し、空間トークンの数を効果的に減らし、拡散トランス(DIT)などの大容量モデルの使用を可能にします。
この目標に向けて、拡散トレーニングを容易にするために潜在スペースをサブバンドに構造化する潜在的なピラミッドvae(LP-vae)設計を提案します。
最大2kの解像度までの完全な画像でトレーニングされたZipirは、既存の拡散ベースの方法を上回り、ひどく劣化した入力から高解像度の画像を復元する際に比類のない速度と品質を提供します。

要約(オリジナル)

Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

arxiv情報

著者 Yongsheng Yu,Haitian Zheng,Zhifei Zhang,Jianming Zhang,Yuqian Zhou,Connelly Barnes,Yuchen Liu,Wei Xiong,Zhe Lin,Jiebo Luo
発行日 2025-04-11 14:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク