From $t$-SNE to UMAP with contrastive learning

要約

近隣埋め込みメソッド $t$-SNE および UMAP は、高次元データセットを視覚化するためのデファクト スタンダードです。
まったく異なる観点から動機付けられているため、それらの損失関数は無関係に見えます。
実際には、それらは大きく異なる埋め込みを生成し、同じデータの矛盾する解釈を示唆する可能性があります。
この根本的な理由と、より一般的に言えば、$t$-SNE と UMAP の正確な関係は不明のままです。
この作業では、対照的な学習方法への新しい洞察を介して、それらの概念的なつながりを明らかにします。
ノイズ コントラスト推定を使用して $t$-SNE を最適化できますが、UMAP は別の対照的な方法であるネガティブ サンプリングに依存しています。
これら 2 つの対照的な方法の間の正確な関係を見つけ、負のサンプリングによって導入された歪みの数学的特徴付けを提供します。
視覚的には、この歪みにより、UMAP は $t$-SNE と比較して、より密集したクラスターでよりコンパクトな埋め込みを生成します。
この新しい概念的な接続を利用して、ネガティブ サンプリングの一般化を提案および実装し、$t$-SNE と UMAP およびそれらのそれぞれの埋め込みの間を補間する (さらにはそれを超えて推定する) ことを可能にします。
この埋め込みのスペクトルに沿って移動すると、離散/ローカル構造と連続/グローバル構造の間のトレードオフが生じ、単一の埋め込みの表向きの特徴を過剰に解釈するリスクが軽減されます。
PyTorch 実装を提供します。

要約(オリジナル)

Neighbor embedding methods $t$-SNE and UMAP are the de facto standard for visualizing high-dimensional datasets. Motivated from entirely different viewpoints, their loss functions appear to be unrelated. In practice, they yield strongly differing embeddings and can suggest conflicting interpretations of the same data. The fundamental reasons for this and, more generally, the exact relationship between $t$-SNE and UMAP have remained unclear. In this work, we uncover their conceptual connection via a new insight into contrastive learning methods. Noise-contrastive estimation can be used to optimize $t$-SNE, while UMAP relies on negative sampling, another contrastive method. We find the precise relationship between these two contrastive methods and provide a mathematical characterization of the distortion introduced by negative sampling. Visually, this distortion results in UMAP generating more compact embeddings with tighter clusters compared to $t$-SNE. We exploit this new conceptual connection to propose and implement a generalization of negative sampling, allowing us to interpolate between (and even extrapolate beyond) $t$-SNE and UMAP and their respective embeddings. Moving along this spectrum of embeddings leads to a trade-off between discrete / local and continuous / global structures, mitigating the risk of over-interpreting ostensible features of any single embedding. We provide a PyTorch implementation.

arxiv情報

著者 Sebastian Damrich,Jan Niklas Böhm,Fred A. Hamprecht,Dmitry Kobak
発行日 2023-02-28 17:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG パーマリンク