Improved Vector Quantized Diffusion Models

要約

ベクトル量子化拡散 (VQ-Diffusion) は、テキストから画像への合成のための強力な生成モデルですが、それでも、低品質のサンプルやテキスト入力との相関が弱い画像を生成することがあります。
これらの問題は、主にサンプリング戦略の欠陥によるものであることがわかりました。
この論文では、VQ-Diffusion のサンプル品質をさらに改善するための 2 つの重要な手法を提案します。
1) 離散ノイズ除去拡散モデルの分類子を使用しないガイダンス サンプリングを調査し、分類子を使用しないガイダンスのより一般的で効果的な実装を提案します。
2) VQ-Diffusion における共同分布の問題を軽減するための高品質の推論戦略を提示します。
最後に、さまざまなデータセットで実験を行ってその有効性を検証し、改善された VQ-Diffusion がバニラ バージョンを大幅に抑制することを示します。
MSCOCO で 8.44 の FID スコアを達成し、VQ-Diffusion を 5.42 の FID スコアで上回っています。
ImageNet でトレーニングすると、FID スコアが 11.89 から 4.83 に劇的に改善され、提案された手法の優位性が実証されました。

要約(オリジナル)

Vector quantized diffusion (VQ-Diffusion) is a powerful generative model for text-to-image synthesis, but sometimes can still generate low-quality samples or weakly correlated images with text input. We find these issues are mainly due to the flawed sampling strategy. In this paper, we propose two important techniques to further improve the sample quality of VQ-Diffusion. 1) We explore classifier-free guidance sampling for discrete denoising diffusion model and propose a more general and effective implementation of classifier-free guidance. 2) We present a high-quality inference strategy to alleviate the joint distribution issue in VQ-Diffusion. Finally, we conduct experiments on various datasets to validate their effectiveness and show that the improved VQ-Diffusion suppresses the vanilla version by large margins. We achieve an 8.44 FID score on MSCOCO, surpassing VQ-Diffusion by 5.42 FID score. When trained on ImageNet, we dramatically improve the FID score from 11.89 to 4.83, demonstrating the superiority of our proposed techniques.

arxiv情報

著者 Zhicong Tang,Shuyang Gu,Jianmin Bao,Dong Chen,Fang Wen
発行日 2023-02-08 07:12:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク