Supervised Manifold Learning via Random Forest Geometry-Preserving Proximities

要約

多様体学習アプローチは、高次元空間内で固有の低次元データ構造を探索します。
Isomap、UMAP、$t$-SNE、拡散マップ、ラプラシアン固有マップなどの主流の多様体学習アルゴリズムはデータ ラベルを使用しないため、教師なしとみなされます。
これらのメソッドの既存の教師あり拡張は、分類問題に限定されており、順序を保持しないクラス条件付き距離を使用して構築されているため、意味のある埋め込みを明らかにするには至っていません。
この論文では、クラス条件付き多様体学習の弱点を定量的かつ視覚的に示し、多様体学習法の初期化としてランダムフォレスト近接性のデータ幾何学的保存バリアントを使用した教師あり次元削減のためのカーネルの代替選択を提案します。
これらの近接性を使用したローカル構造の保存は多様体学習アプローチ全体でほぼ普遍的であり、拡散ベースのアルゴリズムを使用してグローバル構造が適切に維持されることを示します。

要約(オリジナル)

Manifold learning approaches seek the intrinsic, low-dimensional data structure within a high-dimensional space. Mainstream manifold learning algorithms, such as Isomap, UMAP, $t$-SNE, Diffusion Map, and Laplacian Eigenmaps do not use data labels and are thus considered unsupervised. Existing supervised extensions of these methods are limited to classification problems and fall short of uncovering meaningful embeddings due to their construction using order non-preserving, class-conditional distances. In this paper, we show the weaknesses of class-conditional manifold learning quantitatively and visually and propose an alternate choice of kernel for supervised dimensionality reduction using a data-geometry-preserving variant of random forest proximities as an initialization for manifold learning methods. We show that local structure preservation using these proximities is near universal across manifold learning approaches and global structure is properly maintained using diffusion-based algorithms.

arxiv情報

著者 Jake S. Rhodes
発行日 2023-07-03 14:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク