Mini-batch $k$-means terminates within $O(d/ε)$ iterations

要約

タイトル: Mini-batch k-meansはO(d/ε)回の反復で終了します。
要約:
– ミニバッチk-meansアルゴリズムについて、ローカルな進捗がグローバルな進捗につながるかどうかを調べました。
– ミニバッチk-meansアルゴリズムでは、サンプリングされたバッチのクラスタリング品質がある閾値以下になると終了します。
– バッチサイズがΩ((d/ε)^2)の場合、クラスタリングは何度実行しても高確率で、O(d/ε)回ですべて終了することを示しました。
– アルゴリズムがk-means ++初期化スキームで初期化される場合、オプションの近似率はO(logk)で、フルバッチと同じであることを示しました。
– 最後に、スキットラーン(sklearn)Pythonライブラリで実装されたミニバッチk-meansアルゴリズムに私たちの結果がどのように適用されるかを示しました。

要約(オリジナル)

We answer the question: ‘Does local progress (on batches) imply global progress (on the entire dataset) for mini-batch $k$-means?’. Specifically, we consider mini-batch $k$-means which terminates only when the improvement in the quality of the clustering on the sampled batch is below some threshold. Although at first glance it appears that this algorithm might execute forever, we answer the above question in the affirmative and show that if the batch is of size $\tilde{\Omega}((d/\epsilon)^2)$, it must terminate within $O(d/\epsilon)$ iterations with high probability, where $d$ is the dimension of the input, and $\epsilon$ is a threshold parameter for termination. This is true regardless of how the centers are initialized. When the algorithm is initialized with the $k$-means++ initialization scheme, it achieves an approximation ratio of $O(\log k)$ (the same as the full-batch version). Finally, we show the applicability of our results to the mini-batch $k$-means algorithm implemented in the scikit-learn (sklearn) python library.

arxiv情報

著者 Gregory Schwartzman
発行日 2023-04-02 00:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク