Convergent autoencoder approximation of low bending and low distortion manifold embeddings

要約

オートエンコーダはエンコーダとデコーダで構成され、高次元データの次元削減のための機械学習で広く使用されています。
エンコーダは入力データ多様体を低次元の潜在空間に埋め込み、デコーダは逆マップを表し、潜在空間内の多様体によるデータ多様体のパラメータ化を提供します。
埋め込まれた多様体の規則性と構造が良好であれば、クラスター分析やデータ補間などのさらなるデータ処理タスクを大幅に簡素化できます。
我々は、オートエンコーダのエンコーダコンポーネントを学習するための新しい正則化を提案および分析します。これは、等尺性で本質的に平坦な埋め込みを好み、エンコーダを独自にトレーニングできる損失関数です。
トレーニングを実行するには、入力多様体上の近くの点のペアについて、その局所的なリーマン距離と局所的なリーマン平均が評価できると想定されます。
損失関数は、入力多様体上の点のペアに対するさまざまなサンプリング戦略を使用したモンテカルロ積分によって計算されます。
私たちの主定理は、埋め込みマップの幾何学的損失汎関数をサンプリング依存損失汎関数の $\Gamma$ 限界として特定します。
明示的に与えられたさまざまなデータ多様体をエンコードする画像データを使用した数値テストにより、潜在空間への滑らかな多様体埋め込みが得られることが示されました。
外部平坦性の促進により、これらの埋め込みは十分に規則的であるため、多様体上のそれほど離れていない点の間の補間は、可能な後処理の 1 つとして潜在空間での線形補間によって適切に近似されます。

要約(オリジナル)

Autoencoders, which consist of an encoder and a decoder, are widely used in machine learning for dimension reduction of high-dimensional data. The encoder embeds the input data manifold into a lower-dimensional latent space, while the decoder represents the inverse map, providing a parametrization of the data manifold by the manifold in latent space. A good regularity and structure of the embedded manifold may substantially simplify further data processing tasks such as cluster analysis or data interpolation. We propose and analyze a novel regularization for learning the encoder component of an autoencoder: a loss functional that prefers isometric, extrinsically flat embeddings and allows to train the encoder on its own. To perform the training it is assumed that for pairs of nearby points on the input manifold their local Riemannian distance and their local Riemannian average can be evaluated. The loss functional is computed via Monte Carlo integration with different sampling strategies for pairs of points on the input manifold. Our main theorem identifies a geometric loss functional of the embedding map as the $\Gamma$-limit of the sampling-dependent loss functionals. Numerical tests, using image data that encodes different explicitly given data manifolds, show that smooth manifold embeddings into latent space are obtained. Due to the promotion of extrinsic flatness, these embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space as one possible postprocessing.

arxiv情報

著者 Juliane Braunsmann,Marko Rajković,Martin Rumpf,Benedikt Wirth
発行日 2024-01-10 12:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49J55, 53B12, 53B50, 53Z50, 65D05, 68T07, 68T09, cs.CV, cs.LG, cs.NA, math.NA パーマリンク