Revised Conditional t-SNE: Looking Beyond the Nearest Neighbors

要約

タイトル:
Revised Conditional t-SNE:最近傍点を超えて見る

要約:
– t-SNEの最近傍点以外の解析を可能にする拡張である条件付きt-SNE(ct-SNE)は、クラスタ情報を除外してラベル以外の構造を可視化できる。
– ct-SNEは、元の高次元空間のラベルごとに固まっている場合に失敗することがわかった。
– 高次元空間の類似度を条件付け、同ラベル内および異ラベルの最近傍点を別々に保存することで、改訂された方法を提案した。
– t-SNEの新しいスピードアップを使用することも可能になり、スケーラビリティが向上した。
– 合成データの実験から、提案手法が問題を解決することと、埋め込みの品質が改善されることが分かった。
– バッチ効果を含む実データでは、改善が常に見られるわけではないが、改訂されたct-SNEはスケーラビリティが向上しているため、全体的には好ましいと主張している。
– また、クラスタ間の距離変動をどのように扱うかという新しい問題についても言及している。

要約(オリジナル)

Conditional t-SNE (ct-SNE) is a recent extension to t-SNE that allows removal of known cluster information from the embedding, to obtain a visualization revealing structure beyond label information. This is useful, for example, when one wants to factor out unwanted differences between a set of classes. We show that ct-SNE fails in many realistic settings, namely if the data is well clustered over the labels in the original high-dimensional space. We introduce a revised method by conditioning the high-dimensional similarities instead of the low-dimensional similarities and storing within- and across-label nearest neighbors separately. This also enables the use of recently proposed speedups for t-SNE, improving the scalability. From experiments on synthetic data, we find that our proposed method resolves the considered problems and improves the embedding quality. On real data containing batch effects, the expected improvement is not always there. We argue revised ct-SNE is preferable overall, given its improved scalability. The results also highlight new open questions, such as how to handle distance variations between clusters.

arxiv情報

著者 Edith Heiter,Bo Kang,Ruth Seurinck,Jefrey Lijffijt
発行日 2023-04-11 08:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク