要約
既存のベクトル量子化 (VQ) ベースの自己回帰モデルは、最初に画像を離散コードとしてエンコードするコードブックを学習し、次に学習したコードブックに基づいて生成を完了する 2 段階の生成パラダイムに従います。
しかし、固定サイズの画像領域を固定長符号にエンコードし、本来異なる情報密度を無視するため、重要な領域が不足し、重要でない領域が冗長になり、最終的に生成品質と速度が低下します。
さらに、固定長コーディングにより、不自然なラスター スキャン自己回帰生成が発生します。
この問題に対処するために、我々は新しい 2 段階のフレームワークを提案します。(1) 動的量子化 VAE (DQ-VAE)。画像領域をその情報密度に基づいて可変長コードに符号化し、正確でコンパクトなコード表現を実現します。
(2) DQ トランスフォーマーは、新しいスタック構造を通じて、各粒度でのコードの位置と内容を交互にモデル化することにより、粗粒度 (コードが少ない滑らかな領域) から粒度の細かい (より多くのコードを含む詳細な領域) まで画像を自己回帰的に生成します。
– トランスフォーマーアーキテクチャと共有コンテンツ、非共有位置入力層の設計。
さまざまな発電タスクに関する包括的な実験により、有効性と効率性の両方における当社の優位性が検証されます。
コードは https://github.com/CrossmodalGroup/DynamicVectorQuantization でリリースされます。
要約(オリジナル)
Existing vector quantization (VQ) based autoregressive models follow a two-stage generation paradigm that first learns a codebook to encode images as discrete codes, and then completes generation based on the learned codebook. However, they encode fixed-size image regions into fixed-length codes and ignore their naturally different information densities, which results in insufficiency in important regions and redundancy in unimportant ones, and finally degrades the generation quality and speed. Moreover, the fixed-length coding leads to an unnatural raster-scan autoregressive generation. To address the problem, we propose a novel two-stage framework: (1) Dynamic-Quantization VAE (DQ-VAE) which encodes image regions into variable-length codes based on their information densities for an accurate and compact code representation. (2) DQ-Transformer which thereby generates images autoregressively from coarse-grained (smooth regions with fewer codes) to fine-grained (details regions with more codes) by modeling the position and content of codes in each granularity alternately, through a novel stacked-transformer architecture and shared-content, non-shared position input layers designs. Comprehensive experiments on various generation tasks validate our superiorities in both effectiveness and efficiency. Code will be released at https://github.com/CrossmodalGroup/DynamicVectorQuantization.
arxiv情報
著者 | Mengqi Huang,Zhendong Mao,Zhuowei Chen,Yongdong Zhang |
発行日 | 2023-05-19 14:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google