要約
この研究では、再構築されたサンプルが本物のような画像になるように、オートエンコーダー上に構築された生成モデルの潜在空間からのサンプリングに焦点を当てています。
そのために、量子化プロセスと組み合わせた、確率質量関数の概念に根ざした新しいポストトレーニング サンプリング アルゴリズムを導入します。
私たちが提案するアルゴリズムは、入力データから各潜在ベクトルの周囲に近傍を確立し、これらの定義された近傍からサンプルを抽出します。
この戦略的アプローチにより、サンプリングされた潜在ベクトルが主に高確率領域に存在することが保証され、その結果、本物の現実世界の画像に効果的に変換できます。
サンプリング アルゴリズムの比較で注目すべき点は、クラスターを表現する固有の機能により、混合ガウス モデル (GMM) に基づくサンプリング手法です。
驚くべきことに、GMM サンプリングに関連する以前の $\mathcal{O}(n\times d \times k \times i)$ から、より合理化された $\mathcal{O}(n\times
d)$ により、実行時の速度が大幅に向上します。
さらに、画像生成のためのフレシェ開始距離 (FID) を通じて測定された実験結果は、さまざまなモデルやデータセットにわたるサンプリング アルゴリズムの優れたパフォーマンスを強調しています。
MNIST ベンチマーク データセットでは、私たちのアプローチは FID 値で最大 0.89 ドルの注目に値する改善をもたらし、GMM サンプリングよりも優れたパフォーマンスを発揮します。
さらに、顔と目の画像の生成に関しては、CelebA と MOBIUS データセットで証明されているように、GMM サンプリングと比較して、私たちのアプローチは FID がそれぞれ $1.69 ドルと $0.87 ドル向上し、大幅な機能強化を示しています。
最後に、GMM サンプリングとは対照的に、潜在空間分布を推定する際の方法論の有効性を、特にワッサーシュタイン距離のレンズを通して実証します。
要約(オリジナル)
In this study, we focus on sampling from the latent space of generative models built upon autoencoders so as the reconstructed samples are lifelike images. To do to, we introduce a novel post-training sampling algorithm rooted in the concept of probability mass functions, coupled with a quantization process. Our proposed algorithm establishes a vicinity around each latent vector from the input data and then proceeds to draw samples from these defined neighborhoods. This strategic approach ensures that the sampled latent vectors predominantly inhabit high-probability regions, which, in turn, can be effectively transformed into authentic real-world images. A noteworthy point of comparison for our sampling algorithm is the sampling technique based on Gaussian mixture models (GMM), owing to its inherent capability to represent clusters. Remarkably, we manage to improve the time complexity from the previous $\mathcal{O}(n\times d \times k \times i)$ associated with GMM sampling to a much more streamlined $\mathcal{O}(n\times d)$, thereby resulting in substantial speedup during runtime. Moreover, our experimental results, gauged through the Fr\’echet inception distance (FID) for image generation, underscore the superior performance of our sampling algorithm across a diverse range of models and datasets. On the MNIST benchmark dataset, our approach outperforms GMM sampling by yielding a noteworthy improvement of up to $0.89$ in FID value. Furthermore, when it comes to generating images of faces and ocular images, our approach showcases substantial enhancements with FID improvements of $1.69$ and $0.87$ respectively, as compared to GMM sampling, as evidenced on the CelebA and MOBIUS datasets. Lastly, we substantiate our methodology’s efficacy in estimating latent space distributions in contrast to GMM sampling, particularly through the lens of the Wasserstein distance.
arxiv情報
著者 | Aymene Mohammed Bouayed,Adrian Iaccovelli,David Naccache |
発行日 | 2023-08-21 13:18:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google