Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

要約

高速サンプリングを備えた高忠実度生成のための効率的な残差ベクトル量子化(RVQ)ベースの生成モデルであるResgenを紹介します。
RVQは、深さと呼ばれる量子化ステップの数を増やすことでデータの忠実度を向上させますが、より深い量子化は通常、生成モデルの推論ステップを増加させます。
これに対処するために、Resgenは個々のトークンではなく、集合トークンのベクトル埋め込みを直接予測し、推論ステップがRVQの深さから独立したままであることを保証します。
さらに、個別の拡散と変分推論を使用して、確率的フレームワーク内でトークンマスキングとマルチトークン予測を策定します。
さまざまなモダリティにわたる2つの挑戦的なタスクで提案された方法の有効性と一般化可能性を検証します:Imagenet 256×256の条件付き画像生成とゼロショットテキストツースピック合成。
実験結果は、Resgenが両方のタスクで自己回帰のカウンターパートを上回ることを示しており、サンプリング速度を損なうことなく優れたパフォーマンスを提供します。
さらに、RVQの深さをスケーリングすると、生成モデルは、同様のサイズのベースラインモデルと比較して、生成の忠実度またはより速いサンプリング速度を示します。

要約(オリジナル)

We introduce ResGen, an efficient Residual Vector Quantization (RVQ)-based generative model for high-fidelity generation with fast sampling. RVQ improves data fidelity by increasing the number of quantization steps, referred to as depth, but deeper quantization typically increases inference steps in generative models. To address this, ResGen directly predicts the vector embedding of collective tokens rather than individual ones, ensuring that inference steps remain independent of RVQ depth. Additionally, we formulate token masking and multi-token prediction within a probabilistic framework using discrete diffusion and variational inference. We validate the efficacy and generalizability of the proposed method on two challenging tasks across different modalities: conditional image generation on ImageNet 256×256 and zero-shot text-to-speech synthesis. Experimental results demonstrate that ResGen outperforms autoregressive counterparts in both tasks, delivering superior performance without compromising sampling speed. Furthermore, as we scale the depth of RVQ, our generative models exhibit enhanced generation fidelity or faster sampling speeds compared to similarly sized baseline models.

arxiv情報

著者 Jaehyeon Kim,Taehong Moon,Keon Lee,Jaewoong Cho
発行日 2025-06-02 11:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク