要約
ベクトル量子化 (VQ) は、有益な離散潜在表現を抽出するためのディープ ラーニングのよく知られた手法です。
VQ 埋め込みモデルは、画像や音声の生成を含むさまざまなアプリケーションで目覚ましい結果を示しています。
VQ は、フォワード パスで単一のコードブック ベクトルを使用して入力を量子化するパラメトリック K 平均法アルゴリズムとして動作します。
この技術は強力ではありますが、コードブックの崩壊、微分不可能性、非可逆圧縮などの実際的な課題に直面しています。
前述の問題を軽減するために、VQ の直接の代替として Soft Convex Quantization (SCQ) を提案します。
SCQ は、微分可能凸最適化 (DCO) 層のように機能します。フォワード パスでは、入力を量子化するコードブック ベクトルの最適な凸組み合わせを求めます。
バックワード パスでは、フォワード ソリューションの最適性条件を通じて微分可能性を活用します。
次に、SCQ 最適化のスケーラブルな緩和を導入し、CIFAR-10、GTSRB、LSUN データセットでの有効性を実証します。
私たちは、同等の VQ ベースのアーキテクチャを大幅に上回る強力な SCQ オートエンコーダ モデルをトレーニングし、同等の量子化ランタイムで桁違いに優れた画像再構成とコードブックの使用状況を観察しました。
要約(オリジナル)
Vector Quantization (VQ) is a well-known technique in deep learning for extracting informative discrete latent representations. VQ-embedded models have shown impressive results in a range of applications including image and speech generation. VQ operates as a parametric K-means algorithm that quantizes inputs using a single codebook vector in the forward pass. While powerful, this technique faces practical challenges including codebook collapse, non-differentiability and lossy compression. To mitigate the aforementioned issues, we propose Soft Convex Quantization (SCQ) as a direct substitute for VQ. SCQ works like a differentiable convex optimization (DCO) layer: in the forward pass, we solve for the optimal convex combination of codebook vectors that quantize the inputs. In the backward pass, we leverage differentiability through the optimality conditions of the forward solution. We then introduce a scalable relaxation of the SCQ optimization and demonstrate its efficacy on the CIFAR-10, GTSRB and LSUN datasets. We train powerful SCQ autoencoder models that significantly outperform matched VQ-based architectures, observing an order of magnitude better image reconstruction and codebook usage with comparable quantization runtime.
arxiv情報
著者 | Tanmay Gautam,Reid Pryzant,Ziyi Yang,Chenguang Zhu,Somayeh Sojoudi |
発行日 | 2023-10-04 17:45:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google