要約
エンコーダーとデコーダーで構成されるオートエンコーダーは、高次元データの次元削減のための機械学習で広く使用されています。
エンコーダーは入力データ多様体を低次元の潜在空間に埋め込みますが、デコーダーは逆マップを表し、潜在空間内の多様体によるデータ多様体のパラメーター化を提供します。
埋め込まれた多様体の良好な規則性と構造は、クラスター分析やデータ補間などのさらなるデータ処理タスクを大幅に簡素化する可能性があります。
オートエンコーダーのエンコーダー コンポーネントを学習するための新しい正則化を提案および分析します。これは、等尺性で外因的にフラットな埋め込みを優先し、エンコーダーを独自にトレーニングできる損失汎関数です。
トレーニングを実行するために、入力多様体上の近くの点のペアについて、それらのローカル リーマン距離とそれらのローカル リーマン平均を評価できると想定されます。
損失汎関数は、入力多様体上の点のペアに対して異なるサンプリング戦略を使用したモンテカルロ積分によって計算されます。
私たちの主な定理は、埋め込み写像の幾何学的損失汎関数を、サンプリング依存の損失汎関数の $\Gamma$ 極限として識別します。
異なる明示的に与えられたデータ多様体をエンコードする画像データを使用した数値テストは、潜在空間への滑らかな多様体埋め込みが得られることを示しています。
外部平坦性の促進により、これらの埋め込みは十分に規則的であるため、多様体上のあまり離れていない点間の補間は、可能な後処理の 1 つとして潜在空間での線形補間によって十分に近似されます。
要約(オリジナル)
Autoencoders, which consist of an encoder and a decoder, are widely used in machine learning for dimension reduction of high-dimensional data. The encoder embeds the input data manifold into a lower-dimensional latent space, while the decoder represents the inverse map, providing a parametrization of the data manifold by the manifold in latent space. A good regularity and structure of the embedded manifold may substantially simplify further data processing tasks such as cluster analysis or data interpolation. We propose and analyze a novel regularization for learning the encoder component of an autoencoder: a loss functional that prefers isometric, extrinsically flat embeddings and allows to train the encoder on its own. To perform the training it is assumed that for pairs of nearby points on the input manifold their local Riemannian distance and their local Riemannian average can be evaluated. The loss functional is computed via Monte Carlo integration with different sampling strategies for pairs of points on the input manifold. Our main theorem identifies a geometric loss functional of the embedding map as the $\Gamma$-limit of the sampling-dependent loss functionals. Numerical tests, using image data that encodes different explicitly given data manifolds, show that smooth manifold embeddings into latent space are obtained. Due to the promotion of extrinsic flatness, these embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space as one possible postprocessing.
arxiv情報
著者 | Juliane Braunsmann,Marko Rajković,Martin Rumpf,Benedikt Wirth |
発行日 | 2022-08-22 10:31:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google