要約
教師なし学習の文脈において、Lloydアルゴリズムは最も広く使われているクラスタリングアルゴリズムの1つである。このアルゴリズムは、グラウンドトゥルースのクラスタを用いた様々な設定下でのアルゴリズムの正しさを調査する、多くの研究を促してきた。特に2016年、LuとZhouは、サブガウス混合からの$n$個の独立したサンプルに対するLloydのアルゴリズムの誤クラスタリング率が、アルゴリズムの適切な初期化を仮定すると、$O(◆log(n))$回の繰り返し後に指数関数的に束縛されることを示した。しかし、多くのアプリケーションでは、真のサンプルは未観測であり、適切なデータ行列に対するスペクトル法などの前処理パイプラインを介してデータから学習する必要がある。我々は、サブガウス混合からの摂動サンプルに対するロイドアルゴリズムの誤クラスタリング率も、適切な初期化と摂動がサブガウスノイズに対して小さいという仮定の下で、$O(ⅳlog(n))$回の繰り返しで指数関数的に束縛されることを示す。基底真理クラスタを持つ正統的な設定において、我々は$k$-means$++$のようなアルゴリズムが良い初期化を見つけるための境界を導出し、その結果、主結果によってクラスタリングの正しさを導く。SigClustのようなデータから導出されたクラスタの統計的有意性を測定するパイプラインに対する結果の意味を示す。これらの一般的な結果を用いて、高次元時系列、多次元スケーリング、スペクトラルクラスタリングによる疎なネットワークのコミュニティ検出など、多くのアプリケーションにおけるLloydアルゴリズムのクラスタリング誤り率の理論的保証を提供する意味を導く。
要約(オリジナル)
In the context of unsupervised learning, Lloyd’s algorithm is one of the most widely used clustering algorithms. It has inspired a plethora of work investigating the correctness of the algorithm under various settings with ground truth clusters. In particular, in 2016, Lu and Zhou have shown that the mis-clustering rate of Lloyd’s algorithm on $n$ independent samples from a sub-Gaussian mixture is exponentially bounded after $O(\log(n))$ iterations, assuming proper initialization of the algorithm. However, in many applications, the true samples are unobserved and need to be learned from the data via pre-processing pipelines such as spectral methods on appropriate data matrices. We show that the mis-clustering rate of Lloyd’s algorithm on perturbed samples from a sub-Gaussian mixture is also exponentially bounded after $O(\log(n))$ iterations under the assumptions of proper initialization and that the perturbation is small relative to the sub-Gaussian noise. In canonical settings with ground truth clusters, we derive bounds for algorithms such as $k$-means$++$ to find good initializations and thus leading to the correctness of clustering via the main result. We show the implications of the results for pipelines measuring the statistical significance of derived clusters from data such as SigClust. We use these general results to derive implications in providing theoretical guarantees on the misclustering rate for Lloyd’s algorithm in a host of applications, including high-dimensional time series, multi-dimensional scaling, and community detection for sparse networks via spectral clustering.
arxiv情報
著者 | Dhruv Patel,Hui Shen,Shankar Bhamidi,Yufeng Liu,Vladas Pipiras |
発行日 | 2023-09-01 16:45:52+00:00 |
arxivサイト | arxiv_id(pdf) |