SC-VAE: Sparse Coding-based Variational Autoencoder

要約

ラベル付けされていないデータから豊富なデータ表現を学習することは、ダウンストリームの監視対象タスクに深層学習アルゴリズムを適用するための重要な課題です。
低次元空間で高次元データを符号化することによってコンパクトなデータ表現を学習するために、変分オートエンコーダのいくつかの変形が提案されています。
VAE メソッドの 2 つの主なクラスは、表現学習ステップで適用されるメタ プライオリティの特性に応じて区別できます。
メソッドの最初のクラスは、潜在空間で静的な事前分布を仮定することにより、連続エンコーディングを導出します。
メソッドの 2 番目のクラスは、コードブックと共にベクトル量子化 (VQ) を使用して離散潜在表現を代わりに学習します。
ただし、どちらのクラスの方法にも特定の課題があり、最適ではない画像再構成結果につながる可能性があります。
第 1 のクラスのメソッドは事後崩壊の影響を受けますが、第 2 のクラスのメソッドはコードブックの崩壊の影響を受けます。
これらの課題に対処するために、SC-VAE (スパース コーディング ベースの VAE) と呼ばれる新しい VAE バリアントを導入します。これは、スパース コーディングを変分オートエンコーダ フレームワーク内に統合します。
提案された方法は、連続的または離散的な潜在表現を学習する代わりに、学習した少数のアトムの線形結合で構成されるスパース データ表現を学習します。
スパース コーディングの問題は、反復収縮しきい値アルゴリズム (ISTA) の学習可能なバージョンを使用して解決されます。
2 つの画像データセットでの実験は、最新の方法と比較して、モデルが改善された画像再構成結果を達成できることを示しています。
さらに、学習したスパース コード ベクトルを使用すると、画像パッチのクラスタリングによる粗い画像セグメンテーションなどのダウンストリーム タスクを実行できます。

要約(オリジナル)

Learning rich data representations from unlabeled data is a key challenge towards applying deep learning algorithms in downstream supervised tasks. Several variants of variational autoencoders have been proposed to learn compact data representaitons by encoding high-dimensional data in a lower dimensional space. Two main classes of VAEs methods may be distinguished depending on the characteristics of the meta-priors that are enforced in the representation learning step. The first class of methods derives a continuous encoding by assuming a static prior distribution in the latent space. The second class of methods learns instead a discrete latent representation using vector quantization (VQ) along with a codebook. However, both classes of methods suffer from certain challenges, which may lead to suboptimal image reconstruction results. The first class of methods suffers from posterior collapse, whereas the second class of methods suffers from codebook collapse. To address these challenges, we introduce a new VAE variant, termed SC-VAE (sparse coding-based VAE), which integrates sparse coding within variational autoencoder framework. Instead of learning a continuous or discrete latent representation, the proposed method learns a sparse data representation that consists of a linear combination of a small number of learned atoms. The sparse coding problem is solved using a learnable version of the iterative shrinkage thresholding algorithm (ISTA). Experiments on two image datasets demonstrate that our model can achieve improved image reconstruction results compared to state-of-the-art methods. Moreover, the use of learned sparse code vectors allows us to perform downstream task like coarse image segmentation through clustering image patches.

arxiv情報

著者 Pan Xiao,Peijie Qiu,Aristeidis Sotiras
発行日 2023-03-29 13:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, F.2.2, I.2.7, I.4.5, I.4.6 パーマリンク