On Probabilistic Embeddings in Optimal Dimension Reduction

要約

次元削減アルゴリズムは、データ探索、特徴の作成と選択、ノイズ除去などの多くのデータ サイエンス パイプラインの重要な部分です。
多くの非線形次元削減アルゴリズムは、広く使用されているにもかかわらず、理論的な観点からはほとんど理解されていません。
この研究では、多次元スケーリングの一般化バージョンを考慮します。これは、高次元の特徴空間から低次元の埋め込み空間へのマッピングが特徴内の分布の内積または規範のいずれかを保存しようとする最適化問題として提起されます。
これには、一般的に使用される多くの次元削減アルゴリズムが含まれます。
我々は、この問題の変分特性を分析的に調査し、次の洞察を導き出します: 1) 標準的な粒子降下法を使用して見つかった解は、非決定論的な埋め込みにつながる可能性がある、2) 問題の緩和または確率的定式化により、容易に解釈可能な必要条件を備えた解が可能になる
, 3) 緩和問題に対する大域最適解は、実際には決定論的な埋め込みを与える必要があります。
この結果の推移は、最適輸送の古典的な展開を反映しており、グロモフ-ワッサーシュタイン距離に関連するケースでは、実際に、パラメトリックに決定され不連続である最適な埋め込みの構造に対する明確な洞察が得られます。
最後に、このタスクの標準的な計算実装は決定論的な埋め込みを学習しないこと、つまり次善のマッピングを学習すること、およびそのコンテキストで学習された埋め込みが非常に誤解を招くクラスタリング構造を持っていることを示し、この問題の解決がデリケートな性質であることを強調しています。
計算的に。

要約(オリジナル)

Dimension reduction algorithms are a crucial part of many data science pipelines, including data exploration, feature creation and selection, and denoising. Despite their wide utilization, many non-linear dimension reduction algorithms are poorly understood from a theoretical perspective. In this work we consider a generalized version of multidimensional scaling, which is posed as an optimization problem in which a mapping from a high-dimensional feature space to a lower-dimensional embedding space seeks to preserve either inner products or norms of the distribution in feature space, and which encompasses many commonly used dimension reduction algorithms. We analytically investigate the variational properties of this problem, leading to the following insights: 1) Solutions found using standard particle descent methods may lead to non-deterministic embeddings, 2) A relaxed or probabilistic formulation of the problem admits solutions with easily interpretable necessary conditions, 3) The globally optimal solutions to the relaxed problem actually must give a deterministic embedding. This progression of results mirrors the classical development of optimal transportation, and in a case relating to the Gromov-Wasserstein distance actually gives explicit insight into the structure of the optimal embeddings, which are parametrically determined and discontinuous. Finally, we illustrate that a standard computational implementation of this task does not learn deterministic embeddings, which means that it learns sub-optimal mappings, and that the embeddings learned in that context have highly misleading clustering structure, underscoring the delicate nature of solving this problem computationally.

arxiv情報

著者 Ryan Murray,Adam Pickarski
発行日 2024-08-05 12:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AP, stat.ML パーマリンク