MNIST-Nd: a set of naturalistic datasets to benchmark clustering across dimensions

要約

記録技術の進歩により、多くの科学分野にわたって大規模な高次元データセットが出現しました。
特に生物学では、クラスタリングは、さまざまな種類の細胞の構成を理解するなど、そのようなデータセットの構造についての洞察を得るためによく使用されます。
ただし、現在のベンチマーク データセットはほとんど 2 次元であるため、次元の正確な影響は不明ですが、クラスタリングは高次元まではうまくスケーリングできないことが知られています。
ここでは、実世界のデータセットの重要な特性、つまり個々のサンプルにノイズが多く、クラスターが完全に分離していないという特性を共有する合成データセットのセットである MNIST-Nd を提案します。
MNIST-Nd は、MNIST 上で 2 ~ 64 の潜在次元を持つ混合変分オートエンコーダーをトレーニングすることによって取得され、その結果、同等の構造を持つが次元が異なる 6 つのデータセットが得られます。
したがって、クラスタリングに対する次元の影響を解きほぐす機会が得られます。
MNIST-Nd の予備的な共通クラスタリング アルゴリズム ベンチマークでは、ライデンが次元の拡大に対して最も堅牢であることが示唆されています。

要約(オリジナル)

Driven by advances in recording technology, large-scale high-dimensional datasets have emerged across many scientific disciplines. Especially in biology, clustering is often used to gain insights into the structure of such datasets, for instance to understand the organization of different cell types. However, clustering is known to scale poorly to high dimensions, even though the exact impact of dimensionality is unclear as current benchmark datasets are mostly two-dimensional. Here we propose MNIST-Nd, a set of synthetic datasets that share a key property of real-world datasets, namely that individual samples are noisy and clusters do not perfectly separate. MNIST-Nd is obtained by training mixture variational autoencoders with 2 to 64 latent dimensions on MNIST, resulting in six datasets with comparable structure but varying dimensionality. It thus offers the chance to disentangle the impact of dimensionality on clustering. Preliminary common clustering algorithm benchmarks on MNIST-Nd suggest that Leiden is the most robust for growing dimensions.

arxiv情報

著者 Polina Turishcheva,Laura Hansel,Martin Ritzert,Marissa A. Weis,Alexander S. Ecker
発行日 2024-10-21 15:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク