Noncommutative Model Selection for Data Clustering and Dimension Reduction Using Relative von Neumann Entropy

要約

私たちは、教師なし分類と次元削減のための完全にデータ駆動型のアルゴリズムのペアを提案し、3 次元でシミュレートされたデータと COIL-20 データセットからの画像の両方である多数のデータセットでそのパフォーマンスを実証的に研究します。
このアルゴリズムは、計量空間でサポートされる一様分布からサンプリングされた一連の点を入力として受け取り、後者はアンビエント計量空間に埋め込まれ、データのクラスタリングまたは次元の削減を出力します。
これらは、データから自然なグラフ群を構築し、グラフから構築された特定の正規化熱演算子の相対フォン ノイマン エントロピーを最大化するグラフを選択することによって機能します。
適切なグラフが選択されると、グラフ ラプラシアンの固有ベクトルを使用してデータの次元を削減でき、データ内のクラスターを関連するグラフ ラプラシアンのカーネルで識別できます。
特に、これらのアルゴリズムは、$k$-means などの一般的なアルゴリズムや、ラプラシアン固有マップなどのさらに最新のスペクトル手法とは対照的に、入力として近傍のサイズやクラスターの望ましい数に関する情報を必要としません。
私たちの計算実験では、クラスタリング アルゴリズムは、自明ではないジオメトリとトポロジを持つデータ セット、特にクラスタが特定の点の周囲に集中していないデータに対して $k$-mean クラスタリングを上回っています。また、次元削減アルゴリズムは、次のような場合にうまく機能することが示されています。
いくつかの簡単な例。

要約(オリジナル)

We propose a pair of completely data-driven algorithms for unsupervised classification and dimension reduction, and we empirically study their performance on a number of data sets, both simulated data in three-dimensions and images from the COIL-20 data set. The algorithms take as input a set of points sampled from a uniform distribution supported on a metric space, the latter embedded in an ambient metric space, and they output a clustering or reduction of dimension of the data. They work by constructing a natural family of graphs from the data and selecting the graph which maximizes the relative von Neumann entropy of certain normalized heat operators constructed from the graphs. Once the appropriate graph is selected, the eigenvectors of the graph Laplacian may be used to reduce the dimension of the data, and clusters in the data may be identified with the kernel of the associated graph Laplacian. Notably, these algorithms do not require information about the size of a neighborhood or the desired number of clusters as input, in contrast to popular algorithms such as $k$-means, and even more modern spectral methods such as Laplacian eigenmaps, among others. In our computational experiments, our clustering algorithm outperforms $k$-means clustering on data sets with non-trivial geometry and topology, in particular data whose clusters are not concentrated around a specific point, and our dimension reduction algorithm is shown to work well in several simple examples.

arxiv情報

著者 Araceli Guzmán-Tristán,Antonio Rieser
発行日 2024-11-29 18:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML, stat.OT パーマリンク