SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization

要約

ベクトル量子化変分オートエンコーダ(VQ-VAE)の問題点として、学習された離散表現がコードブックの全容量のほんの一部しか使用しないことが挙げられる(コードブック崩壊とも呼ばれる)。我々は、VQ-VAEの学習スキームが、慎重に設計されたいくつかのヒューリスティックスを含んでいることが、この問題の根底にあると仮定している。本論文では、確率的量子化により標準的なVAEを拡張した、確率的量子化変分オートエンコーダ(SQ-VAE)と呼ばれる新しい学習方式を提案する。SQ-VAEでは、学習の初期段階では量子化が確率的であるが、徐々に決定論的量子化へと収束していく傾向を観測し、これをセルフアニーリングと呼ぶ。実験の結果、SQ-VAEは一般的なヒューリスティックを用いることなく、コードブックの利用率を向上させることがわかった。さらに、視覚や音声関連のタスクにおいて、SQ-VAEがVAEやVQ-VAEよりも優れていることを経験的に示した。

要約(オリジナル)

One noted issue of vector-quantized variational autoencoder (VQ-VAE) is that the learned discrete representation uses only a fraction of the full capacity of the codebook, also known as codebook collapse. We hypothesize that the training scheme of VQ-VAE, which involves some carefully designed heuristics, underlies this issue. In this paper, we propose a new training scheme that extends the standard VAE via novel stochastic dequantization and quantization, called stochastically quantized variational autoencoder (SQ-VAE). In SQ-VAE, we observe a trend that the quantization is stochastic at the initial stage of the training but gradually converges toward a deterministic quantization, which we call self-annealing. Our experiments show that SQ-VAE improves codebook utilization without using common heuristics. Furthermore, we empirically show that SQ-VAE is superior to VAE and VQ-VAE in vision- and speech-related tasks.

arxiv情報

著者 Yuhta Takida,Takashi Shibuya,WeiHsiang Liao,Chieh-Hsin Lai,Junki Ohmura,Toshimitsu Uesaka,Naoki Murata,Shusuke Takahashi,Toshiyuki Kumakura,Yuki Mitsufuji
発行日 2022-06-09 12:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク