Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

要約

この論文では、新しい多重解像度ネットワークと時間依存のレイヤー正規化を統合することによる拡散モデルの革新的な機能強化について説明します。
拡散モデルは、高忠実度の画像生成における有効性で注目を集めています。
従来のアプローチは畳み込み U-Net アーキテクチャに依存していますが、最近の Transformer ベースの設計は優れたパフォーマンスとスケーラビリティを実証しています。
ただし、(「パッチ化」によって) 入力データをトークン化する Transformer アーキテクチャは、トークン長に関するセルフアテンション演算の二次的な性質により、視覚的な忠実性と計算の複雑さの間のトレードオフに直面します。
パッチ サイズを大きくすると、アテンションの計算効率が向上しますが、きめの細かい視覚的な詳細をキャプチャするのが難しくなり、画像の歪みが生じます。
この課題に対処するために、マルチ解像度ネットワーク (DiMR) を使用して拡散モデルを強化することを提案します。これは、複数の解像度にわたって特徴を絞り込み、低解像度から高解像度まで段階的に詳細を向上させるフレームワークです。
さらに、時間依存レイヤー正規化 (TD-LN) を導入します。これは、時間依存パラメーターをレイヤー正規化に組み込んで時間情報を注入し、優れたパフォーマンスを実現するパラメーター効率の高いアプローチです。
私たちの手法の有効性は、クラス条件付き ImageNet 生成ベンチマークで実証されており、DiMR-XL バリアントは以前の拡散モデルよりも優れたパフォーマンスを示し、ImageNet 256 x 256 で 1.70、ImageNet 512 x 512 で 2.89 という新しい最先端の FID スコアを設定しました。
プロジェクトページ: https://qihao067.github.io/projects/DiMR

要約(オリジナル)

This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via ‘patchification’), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method’s efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR

arxiv情報

著者 Qihao Liu,Zhanpeng Zeng,Ju He,Qihang Yu,Xiaohui Shen,Liang-Chieh Chen
発行日 2024-06-13 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク