PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher

要約

サンプリングを高速化するために、拡散モデル (DM) は多くの場合、単一ステップでノイズをデータに直接マッピングするジェネレーターに蒸留されます。
このアプローチでは、ジェネレーターの解像度は教師 DM の解像度によって基本的に制限されます。
この制限を克服するために、私たちは、元の教師 DM の解像度を超えてジェネレーターの解像度を段階的に成長させる技術である Progressive Growing of Diffusion Autoencoder (PaGoDA) を提案します。
私たちの重要な洞察は、事前トレーニングされた低解像度 DM を使用して、適切な値から開始して時間内で順方向 (データ対ノイズ) の PF-ODE を解くことにより、高解像度データを構造化された潜在空間に決定論的にエンコードできるということです。
ダウンサンプリングされた画像。
このフリーズしたエンコーダを自動エンコーダ フレームワークで使用し、解像度を段階的に高めることでデコーダをトレーニングします。
漸進的に成長するデコーダの性質上、PaGoDA は学生モデルをアップサンプリングする際に教師/学生モデルの再トレーニングを回避し、トレーニング パイプライン全体を大幅に安価にします。
実験では、段階的に成長するデコーダを使用して、事前トレーニングされたモデルの 64×64 解像度からアップサンプリングして 512×512 サンプルを生成し、LCM のような単一ステップで蒸留された安定拡散と比較して 2 倍高速な推論を達成しました。
PaGoDA はまた、64×64 から 512×512 までのすべての解像度にわたって、ImageNet 上で最先端の FID を実現しました。
さらに、逆問題を解決し、制御可能な発電を可能にする PaGoDA の有効性を実証しました。

要約(オリジナル)

To accelerate sampling, diffusion models (DMs) are often distilled into generators that directly map noise to data in a single step. In this approach, the resolution of the generator is fundamentally limited by that of the teacher DM. To overcome this limitation, we propose Progressive Growing of Diffusion Autoencoder (PaGoDA), a technique to progressively grow the resolution of the generator beyond that of the original teacher DM. Our key insight is that a pre-trained, low-resolution DM can be used to deterministically encode high-resolution data to a structured latent space by solving the PF-ODE forward in time (data-to-noise), starting from an appropriately down-sampled image. Using this frozen encoder in an auto-encoder framework, we train a decoder by progressively growing its resolution. From the nature of progressively growing decoder, PaGoDA avoids re-training teacher/student models when we upsample the student model, making the whole training pipeline much cheaper. In experiments, we used our progressively growing decoder to upsample from the pre-trained model’s 64×64 resolution to generate 512×512 samples, achieving 2x faster inference compared to single-step distilled Stable Diffusion like LCM. PaGoDA also achieved state-of-the-art FIDs on ImageNet across all resolutions from 64×64 to 512×512. Additionally, we demonstrated PaGoDA’s effectiveness in solving inverse problems and enabling controllable generation.

arxiv情報

著者 Dongjun Kim,Chieh-Hsin Lai,Wei-Hsiang Liao,Yuhta Takida,Naoki Murata,Toshimitsu Uesaka,Yuki Mitsufuji,Stefano Ermon
発行日 2024-05-23 17:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク