Simple, Scalable and Effective Clustering via One-Dimensional Projections

要約

クラスタリングは、データ分析の多くの用途に使用される教師なし機械学習の基本的な問題です。
ロイズ アルゴリズムや $k$-means++ などの一般的なクラスタリング アルゴリズムは、$d$ 次元空間 ($n\times d$ 行列 $X で表される) 内の $n$ 点をクラスタリングする場合、$\Omega(ndk)$ 時間がかかることがあります。
$) を $k$ クラスターに分割します。
中程度から大規模な $k$ を使用するアプリケーションでは、乗算 $k$ 係数が非常に高価になる可能性があります。
任意の $k$ に対して予想時間 $O(\mathrm{nnz}(X) + n\log n)$ で実行される可能性が高い、単純なランダム化クラスタリング アルゴリズムを導入します。
ここで、$\mathrm{nnz}(X)$ は、入力データセット $X$ 内のゼロ以外のエントリの総数です。上限は $nd$ で制限され、疎なデータセットの場合は大幅に小さくなる可能性があります。
私たちのアルゴリズムが、$k$-means 目的の任意の入力データセットに対して近似比 $\smash{\widetilde{O}(k^4)}$ を達成することを証明します。
また、$k$-means アルゴリズムの近似比が射影のクラスの下でほぼ保存され、$k$-means++ シーディングが予想される $O で実装できることを示すため、私たちの理論的分析は独立した興味深いものであると信じています。
1 次元での (n \log n)$ 時間。
最後に、これらのタスクに対する以前の最先端の方法と比較して、クラスタリング アルゴリズムが実行時間とクラスターの品質の間に新たなトレードオフをもたらすことを実験的に示します。

要約(オリジナル)

Clustering is a fundamental problem in unsupervised machine learning with many applications in data analysis. Popular clustering algorithms such as Lloyd’s algorithm and $k$-means++ can take $\Omega(ndk)$ time when clustering $n$ points in a $d$-dimensional space (represented by an $n\times d$ matrix $X$) into $k$ clusters. In applications with moderate to large $k$, the multiplicative $k$ factor can become very expensive. We introduce a simple randomized clustering algorithm that provably runs in expected time $O(\mathrm{nnz}(X) + n\log n)$ for arbitrary $k$. Here $\mathrm{nnz}(X)$ is the total number of non-zero entries in the input dataset $X$, which is upper bounded by $nd$ and can be significantly smaller for sparse datasets. We prove that our algorithm achieves approximation ratio $\smash{\widetilde{O}(k^4)}$ on any input dataset for the $k$-means objective. We also believe that our theoretical analysis is of independent interest, as we show that the approximation ratio of a $k$-means algorithm is approximately preserved under a class of projections and that $k$-means++ seeding can be implemented in expected $O(n \log n)$ time in one dimension. Finally, we show experimentally that our clustering algorithm gives a new tradeoff between running time and cluster quality compared to previous state-of-the-art methods for these tasks.

arxiv情報

著者 Moses Charikar,Monika Henzinger,Lunjia Hu,Maxmilian Vötsch,Erik Waingarten
発行日 2023-10-25 16:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク