Coreset Spectral Clustering

要約

コアセットは、少数のクラスターを含む大規模なデータセットで$ k $ -means and kernel $ k $ k $ -meansクラスタリングの問題を解くための非常に貴重なツールになりました。
一方、スペクトルクラスタリングはスパースグラフでうまく機能し、最近、多数のクラスターに効率的にスケーリングするように拡張されました。
カーネル$ k $ meansと正規化されたカット問題との間の接続を活用して、両方の利点を組み合わせます。
私たちの主な結果は、元のグラフの適切なラベル付けを推測するためにコアセットグラフをクラスターするグラフのコアセットスペクトルクラスタリングアルゴリズムです。
CoreSetグラフの正規化されたカット問題の$ \ alpha $ -Approximationは、$ o(\ alpha)$ – 元の近似であることを証明します。
We also improve the running time of the state-of-the-art coreset algorithm for kernel $k$-means on sparse kernels, from $\tilde{O}(nk)$ to $\tilde{O}(n\cdot \min \{k, d_{avg}\})$, where $d_{avg}$ is the average number of non-zero
$ n \ times n $カーネルマトリックスの各行のエントリ。
私たちの実験は、私たちのコアセットアルゴリズムが多くのクラスターを備えた大きな現実世界グラフで漸近的に速くなることを確認し、クラスタリングアルゴリズムが、ローカルオプティマに詰まっているスパースカーネルのコアセットカーネル$ k $ -meansが直面する主な課題を克服することを示しています。

要約(オリジナル)

Coresets have become an invaluable tool for solving $k$-means and kernel $k$-means clustering problems on large datasets with small numbers of clusters. On the other hand, spectral clustering works well on sparse graphs and has recently been extended to scale efficiently to large numbers of clusters. We exploit the connection between kernel $k$-means and the normalised cut problem to combine the benefits of both. Our main result is a coreset spectral clustering algorithm for graphs that clusters a coreset graph to infer a good labelling of the original graph. We prove that an $\alpha$-approximation for the normalised cut problem on the coreset graph is an $O(\alpha)$-approximation on the original. We also improve the running time of the state-of-the-art coreset algorithm for kernel $k$-means on sparse kernels, from $\tilde{O}(nk)$ to $\tilde{O}(n\cdot \min \{k, d_{avg}\})$, where $d_{avg}$ is the average number of non-zero entries in each row of the $n\times n$ kernel matrix. Our experiments confirm our coreset algorithm is asymptotically faster on large real-world graphs with many clusters, and show that our clustering algorithm overcomes the main challenge faced by coreset kernel $k$-means on sparse kernels which is getting stuck in local optima.

arxiv情報

著者 Ben Jourdan,Gregory Schwartzman,Peter Macgregor,He Sun
発行日 2025-03-10 12:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク