From $t$-SNE to UMAP with contrastive learning


近隣埋め込みメソッド $t$-SNE および UMAP は、高次元データセットを視覚化するためのデファクト スタンダードです。
この根本的な理由と、より一般的に言えば、$t$-SNE と UMAP の正確な関係は不明のままです。
ノイズ コントラスト推定を使用して $t$-SNE を最適化できますが、UMAP は別の対照的な方法であるネガティブ サンプリングに依存しています。
これら 2 つの対照的な方法の間の正確な関係を見つけ、負のサンプリングによって導入された歪みの数学的特徴付けを提供します。
視覚的には、この歪みにより、UMAP は $t$-SNE と比較して、より密集したクラスターでよりコンパクトな埋め込みを生成します。
この新しい概念的な接続を利用して、ネガティブ サンプリングの一般化を提案および実装し、$t$-SNE と UMAP およびそれらのそれぞれの埋め込みの間を補間する (さらにはそれを超えて推定する) ことを可能にします。
Neighbor embedding methods $t$-SNE and UMAP are the de facto standard for visualizing high-dimensional datasets. Motivated from entirely different viewpoints, their loss functions appear to be unrelated. In practice, they yield strongly differing embeddings and can suggest conflicting interpretations of the same data. The fundamental reasons for this and, more generally, the exact relationship between $t$-SNE and UMAP have remained unclear. In this work, we uncover their conceptual connection via a new insight into contrastive learning methods. Noise-contrastive estimation can be used to optimize $t$-SNE, while UMAP relies on negative sampling, another contrastive method. We find the precise relationship between these two contrastive methods and provide a mathematical characterization of the distortion introduced by negative sampling. Visually, this distortion results in UMAP generating more compact embeddings with tighter clusters compared to $t$-SNE. We exploit this new conceptual connection to propose and implement a generalization of negative sampling, allowing us to interpolate between (and even extrapolate beyond) $t$-SNE and UMAP and their respective embeddings. Moving along this spectrum of embeddings leads to a trade-off between discrete / local and continuous / global structures, mitigating the risk of over-interpreting ostensible features of any single embedding. We provide a PyTorch implementation.


著者 Sebastian Damrich,Jan Niklas Böhm,Fred A. Hamprecht,Dmitry Kobak
発行日 2023-02-28 17:32:58+00:00
カテゴリー: cs.HC, cs.LG パーマリンク