Consistency Regularization for Variational Auto-Encoders

要約

Variational Auto-encoders (VAE) は教師なし学習に対する強力なアプローチである.VAEは変分推論(VI)を用いて、潜在変数モデルにおけるスケーラブルな近似事後推論を可能にする。VAEは、データを入力とするエンコーダーと呼ばれるディープニューラルネットワークによってパラメータ化された変分族を仮定している。このエンコーダはすべての観測値で共有され、推論のコストを償却する。しかし、VAEのエンコーダは、与えられた観測とそのセマンティクス保存変換を異なる潜在表現にマッピングするという望ましくない性質を持っている。このエンコーダの「不一致」は、特に下流タスクにおいて学習された表現の品質を低下させ、また汎化にもマイナスの影響を与える。本論文では、VAEにおいて一貫性を強制するための正則化手法を提案する。そのアイデアは、観測を条件とする変分と、この観測のランダムな意味保存変換を条件とする変分との間のKullback-Leibler(KL)ダイバージェンスを最小化することである。この正則化はあらゆるVAEに適用可能である。我々の実験では、いくつかのベンチマークデータセット上の4つの異なるVAEバリエーションにこれを適用し、常に学習した表現の品質を向上させ、より良い汎化にもつながることを見出した。特に、Nouveau Variational Auto-Encoder (NVAE) に適用した場合、我々の正則化手法はMNISTとCIFAR-10で最先端の性能を発揮することが分かった。また、本手法を3次元データに適用したところ、下流の分類課題に対する精度で測定したところ、より優れた品質の表現を学習することが分かった。

要約(オリジナル)

Variational auto-encoders (VAEs) are a powerful approach to unsupervised learning. They enable scalable approximate posterior inference in latent-variable models using variational inference (VI). A VAE posits a variational family parameterized by a deep neural network called an encoder that takes data as input. This encoder is shared across all the observations, which amortizes the cost of inference. However the encoder of a VAE has the undesirable property that it maps a given observation and a semantics-preserving transformation of it to different latent representations. This ‘inconsistency’ of the encoder lowers the quality of the learned representations, especially for downstream tasks, and also negatively affects generalization. In this paper, we propose a regularization method to enforce consistency in VAEs. The idea is to minimize the Kullback-Leibler (KL) divergence between the variational distribution when conditioning on the observation and the variational distribution when conditioning on a random semantic-preserving transformation of this observation. This regularization is applicable to any VAE. In our experiments we apply it to four different VAE variants on several benchmark datasets and found it always improves the quality of the learned representations but also leads to better generalization. In particular, when applied to the Nouveau Variational Auto-Encoder (NVAE), our regularization method yields state-of-the-art performance on MNIST and CIFAR-10. We also applied our method to 3D data and found it learns representations of superior quality as measured by accuracy on a downstream classification task.

arxiv情報

著者 Samarth Sinha,Adji B. Dieng
発行日 2022-06-06 19:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク