要約
我々は、画像コレクションの 2 レベルの特徴表現である BRICS を提案します。BRICS は、特徴グリッド空間上のキーコード空間で構成されます。
具体的には、私たちの表現はオートエンコーダーによって学習され、画像を連続キーコードにエンコードし、多重解像度特徴グリッドのグループから特徴を取得するために使用されます。
当社のキー コードと特徴グリッドは、明確に定義された勾配フローを使用して継続的に共同トレーニングされるため、離散ベクトル量子化 (VQ) と比較して特徴グリッドの使用率が高く、生成モデリングが向上します。
KL 正規化された潜在コードなどの既存の連続表現とは異なり、キー コードはスケールと分散が厳密に制限されています。
全体として、BRICS による特徴エンコーディングはコンパクトで、トレーニングが効率的であり、拡散モデルを使用したキー コードの生成モデリングが可能です。
実験結果は、私たちの方法が、より小型でより効率的なデコーダ ネットワーク (GFlops が 50% 少ない) を持ちながら、VQ と同等の再構成結果を達成できることを示しています。
キーコード空間に拡散モデルを適用することで、FFHQ および LSUN-Church での画像合成で最先端のパフォーマンスを実現します (LDM より 29% 低く、StyleGAN2 より 32% 低く、Projected GAN より 44% 低い)
CLIP-FID 上) データセット。
要約(オリジナル)
We present BRICS, a bi-level feature representation for image collections, which consists of a key code space on top of a feature grid space. Specifically, our representation is learned by an autoencoder to encode images into continuous key codes, which are used to retrieve features from groups of multi-resolution feature grids. Our key codes and feature grids are jointly trained continuously with well-defined gradient flows, leading to high usage rates of the feature grids and improved generative modeling compared to discrete Vector Quantization (VQ). Differently from existing continuous representations such as KL-regularized latent codes, our key codes are strictly bounded in scale and variance. Overall, feature encoding by BRICS is compact, efficient to train, and enables generative modeling over key codes using the diffusion model. Experimental results show that our method achieves comparable reconstruction results to VQ while having a smaller and more efficient decoder network (50% fewer GFlops). By applying the diffusion model over our key code space, we achieve state-of-the-art performance on image synthesis on the FFHQ and LSUN-Church (29% lower than LDM, 32% lower than StyleGAN2, 44% lower than Projected GAN on CLIP-FID) datasets.
arxiv情報
著者 | Dingdong Yang,Yizhi Wang,Ali Mahdavi-Amiri,Hao Zhang |
発行日 | 2023-12-31 04:01:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google