Distributional Autoencoders Know the Score

要約

この作業は、最近導入されたクラスの自動エンコーダー – 分布プリンシパルオートエンコーダー(DPA)の新規で望ましい特性を提示します。これは、分布的に正しい再構築とエンコーディングの主成分のような解釈可能性を組み合わせています。
まず、エンコーダーのレベルセットがデータ分布のスコアに関して正確に向いていることを正式に示します。
これは、データの変動の要因を解き放つ際の方法の顕著なパフォーマンスを説明し、サンプルのみにアクセスしながら分布を回復する可能性を開きます。
スコア自体が物理的な意味を持つ設定では、データがボルツマン分布に従うときなど、この方法が最小自由エネルギー経路などの科学的に重要な量を回復できることを実証します。
第二に、データがエンコーダーによって近似できるマニホールドにある場合、マニホールドの次元を超えた最適なエンコーダのコンポーネントは、データ分布に関する追加情報をまったく運ばないことを証明します。
これは、データの関連する寸法の数を決定する潜在的に新しい方法を約束します。
したがって、結果は、DPAが、監視されていない学習の2つの異なる目標、つまりデータ分布の学習と本質的なデータの次元の学習をエレガントに組み合わせていることを示しています。

要約(オリジナル)

This work presents novel and desirable properties of a recently introduced class of autoencoders – the Distributional Principal Autoencoder (DPA) – which combines distributionally correct reconstruction with principal components-like interpretability of the encodings. First, we show formally that the level sets of the encoder orient themselves exactly with regard to the score of the data distribution. This both explains the method’s often remarkable performance in disentangling the factors of variation of the data, as well as opens up possibilities of recovering its distribution while having access to samples only. In settings where the score itself has physical meaning – such as when the data obeys the Boltzmann distribution – we demonstrate that the method can recover scientifically important quantities such as the minimum free energy path. Second, we prove that if the data lies on a manifold that can be approximated by the encoder, the optimal encoder’s components beyond the dimension of the manifold will carry absolutely no additional information about the data distribution. This promises potentially new ways of determining the number of relevant dimensions of the data. The results thus demonstrate that the DPA elegantly combines two often disparate goals of unsupervised learning: the learning of the data distribution and the learning of the intrinsic data dimensionality.

arxiv情報

著者 Andrej Leban
発行日 2025-04-09 17:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク