The Shape of Attraction in UMAP: Exploring the Embedding Forces in Dimensionality Reduction

要約

均一なマニホールド近似と投影(UMAP)は、最も人気のあるネイバーの埋め込み方法の1つです。
この方法は、高次元のデータポイント間の魅力的で反発的な力に依存して、低次元の埋め込みを取得します。
この論文では、力を分析して、クラスターの形成と視覚化への影響を明らかにします。
反発は違いを強調し、クラスター境界とクラスター間距離を制御します。
ポイント間の魅力的な緊張は、低次元マッピングの魅力と反発として同時に現れる可能性があるため、より微妙です。
これは、学習率のアニーリングの必要性を説明し、魅力的な用語と反発用語の間のさまざまな治療を動機付けます。
さらに、アトラクションを変更することにより、ランダムな初期化下でのクラスター形成の一貫性を改善します。
全体として、私たちの分析により、UMAPと同様の埋め込み方法が、より解釈可能で、より堅牢で、より正確になります。

要約(オリジナル)

Uniform manifold approximation and projection (UMAP) is among the most popular neighbor embedding methods. The method relies on attractive and repulsive forces among high-dimensional data points to obtain a low-dimensional embedding. In this paper, we analyze the forces to reveal their effects on cluster formations and visualization. Repulsion emphasizes differences, controlling cluster boundaries and inter-cluster distance. Attraction is more subtle, as attractive tension between points can manifest simultaneously as attraction and repulsion in the lower-dimensional mapping. This explains the need for learning rate annealing and motivates the different treatments between attractive and repulsive terms. Moreover, by modifying attraction, we improve the consistency of cluster formation under random initialization. Overall, our analysis makes UMAP and similar embedding methods more interpretable, more robust, and more accurate.

arxiv情報

著者 Mohammad Tariqul Islam,Jason W. Fleischer
発行日 2025-03-18 15:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク