VTAE: Variational Transformer Autoencoder with Manifolds Learning

要約

【タイトル】VTAE: 位相空間学習を用いた変分トランスフォーマーオートエンコーダー

【要約】
– 深層生成モデルは、多数の潜在変数を通じて非線形データ分布を学習することに成功し、非線形関数(ジェネレータ)を使用して潜在的なサンプルをデータ空間にマッピングしている。しかし、ジェネレータの非線形性は、潜在空間がデータ空間の不十分な射影を示すことを意味し、表現学習の貧弱な結果を招く。
– この弱い射影を、リーマン計量によって解決することができ、リーマン多様体上での測地線計算やデータサンプル間の正確な補間が、深層生成モデルの性能を大幅に向上させることができることを示す。
– 本論文では、位相空間学習を用いた変分空間トランスフォーマーオートエンコーダー(VTAE)が提案され、測地線を最小化して表現学習を改善する。特に、エンコーデッドされた空間トランスフォーマーを持つ変分オートエンコーダーを慎重に設計し、潜在変数モデルをリーマン多様体上のデータに明示的に拡張し、グローバルコンテキストモデリングを獲得する。
– さらに、異なるオブジェクトの潜在表現の間を移動する際にスムーズで合理的な補間を行うために、従来の線形補間を使用する既存のモデルとは異なる測地線補間ネットワークを提案する。ベンチマーク上の実験では、提案モデルが画像の補間や再構成を含むコンピュータビジョンタスクの幅広い範囲で予測精度と多様性を向上させることが示された。

要約(オリジナル)

Deep generative models have demonstrated successful applications in learning non-linear data distributions through a number of latent variables and these models use a nonlinear function (generator) to map latent samples into the data space. On the other hand, the nonlinearity of the generator implies that the latent space shows an unsatisfactory projection of the data space, which results in poor representation learning. This weak projection, however, can be addressed by a Riemannian metric, and we show that geodesics computation and accurate interpolations between data samples on the Riemannian manifold can substantially improve the performance of deep generative models. In this paper, a Variational spatial-Transformer AutoEncoder (VTAE) is proposed to minimize geodesics on a Riemannian manifold and improve representation learning. In particular, we carefully design the variational autoencoder with an encoded spatial-Transformer to explicitly expand the latent variable model to data on a Riemannian manifold, and obtain global context modelling. Moreover, to have smooth and plausible interpolations while traversing between two different objects’ latent representations, we propose a geodesic interpolation network different from the existing models that use linear interpolation with inferior performance. Experiments on benchmarks show that our proposed model can improve predictive accuracy and versatility over a range of computer vision tasks, including image interpolations, and reconstructions.

arxiv情報

著者 Pourya Shamsolmoali,Masoumeh Zareapoor,Huiyu Zhou,Dacheng Tao,Xuelong Li
発行日 2023-04-03 13:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク