Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

要約

ベクトル量子化された生成モデルでの高忠実度の生成のための残差ベクトル量子化 (RVQ) の使用を検討します。
この量子化技術は、より詳細なトークンを使用することで、より高いデータ忠実度を維持します。
ただし、生成モデルでトークンの数を増やすと、推論速度が遅くなります。
この目的を達成するために、サンプリング速度を犠牲にすることなく高忠実度のサンプルを生成する効率的な RVQ ベースの離散拡散モデルである ResGen を導入します。
私たちの重要なアイデアは、個々のトークンではなく集合的なトークンのベクトル埋め込みを直接予測することです。
さらに、私たちが提案するトークンマスキングおよびマルチトークン予測方法が、離散拡散プロセスと変分推論を使用する原理的な確率的フレームワーク内で定式化できることを示します。
我々は、ImageNet 256×256 での条件付き画像生成とゼロショット テキスト音声合成という、さまざまなモダリティにわたる 2 つの困難なタスクにおいて、提案された方法の有効性と一般化可能性を検証します。
実験結果は、ResGen が両方のタスクにおいて自己回帰型の同等のパフォーマンスを上回り、サンプリング速度を損なうことなく優れたパフォーマンスを実現することを示しています。
さらに、RVQ の深さをスケールするにつれて、生成モデルは、同様のサイズのベースライン モデルと比較して、生成忠実度の向上やサンプリング速度の高速化を示します。
プロジェクトページは https://resgen-genai.github.io にあります。

要約(オリジナル)

We explore the use of Residual Vector Quantization (RVQ) for high-fidelity generation in vector-quantized generative models. This quantization technique maintains higher data fidelity by employing more in-depth tokens. However, increasing the token number in generative models leads to slower inference speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete diffusion model that generates high-fidelity samples without compromising sampling speed. Our key idea is a direct prediction of vector embedding of collective tokens rather than individual ones. Moreover, we demonstrate that our proposed token masking and multi-token prediction method can be formulated within a principled probabilistic framework using a discrete diffusion process and variational inference. We validate the efficacy and generalizability of the proposed method on two challenging tasks across different modalities: conditional image generation} on ImageNet 256×256 and zero-shot text-to-speech synthesis. Experimental results demonstrate that ResGen outperforms autoregressive counterparts in both tasks, delivering superior performance without compromising sampling speed. Furthermore, as we scale the depth of RVQ, our generative models exhibit enhanced generation fidelity or faster sampling speeds compared to similarly sized baseline models. The project page can be found at https://resgen-genai.github.io

arxiv情報

著者 Jaehyeon Kim,Taehong Moon,Keon Lee,Jaewoong Cho
発行日 2024-12-16 04:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク