要約
我々は、データの階層的な離散表現を学習する多層変分オートエンコーダ法(HR-VQVAEと呼ぶ)を提案する。HR-VQVAEの各層は、新しい目的関数を利用することで、ベクトル量子化エンコーダを通して前の層から残差の離散表現を学習する。さらに、各層の表現は前の層の表現と階層的にリンクしている。我々は、画像再構成と画像生成のタスクで本手法を評価する。実験の結果、HR-VQVAEによって学習された離散表現は、ベースライン手法であるVQVAEやVQVAE-2よりも歪みの少ない高品質な画像をデコーダによって再構成することができることを実証した。また、HR-VQVAEは最新の生成モデルを上回る高品質で多様な画像を生成することができ、学習した表現の効率性をさらに検証することができました。HR-VQVAEの階層的な性質は、i)復号化探索時間を短縮し、高負荷タスクに特に適している、ii)コードブック崩壊問題を発生させずにコードブックサイズを増加させることができる、などである。
要約(オリジナル)
We propose a multi-layer variational autoencoder method, we call HR-VQVAE, that learns hierarchical discrete representations of the data. By utilizing a novel objective function, each layer in HR-VQVAE learns a discrete representation of the residual from previous layers through a vector quantized encoder. Furthermore, the representations at each layer are hierarchically linked to those at previous layers. We evaluate our method on the tasks of image reconstruction and generation. Experimental results demonstrate that the discrete representations learned by HR-VQVAE enable the decoder to reconstruct high-quality images with less distortion than the baseline methods, namely VQVAE and VQVAE-2. HR-VQVAE can also generate high-quality and diverse images that outperform state-of-the-art generative models, providing further verification of the efficiency of the learned representations. The hierarchical nature of HR-VQVAE i) reduces the decoding search time, making the method particularly suitable for high-load tasks and ii) allows to increase the codebook size without incurring the codebook collapse problem.
arxiv情報
著者 | Mohammad Adiban,Kalin Stefanov,Sabato Marco Siniscalchi,Giampiero Salvi |
発行日 | 2022-08-09 06:04:25+00:00 |
arxivサイト | arxiv_id(pdf) |