Multi-Prototypes Convex Merging Based K-Means Clustering Algorithm

要約

K-Means アルゴリズムは、一般的なクラスタリング手法です。
ただし、これには 2 つの制限があります。1) 誤った極小値に簡単に行き詰ってしまうこと、および 2) クラスターの数 k を先験的に与えなければならないことです。
これら 2 つの問題を解決するために、マルチ プロトタイプ凸マージ ベースの K-Means クラスタリング アルゴリズム (MCKM) が提示されます。
まず、K-Means 問題の疑似極小値の構造に基づいて、マルチプロトタイプ サンプリング (MPS) が設計され、任意の形状のデータに対して適切な数のマルチプロトタイプが選択されます。
MPS によって選択されたマルチプロトタイプが K-Means 問題の最適コストの定数係数近似を達成できることを保証するために、理論的証明が与えられます。
次に、コンベックス マージ (CM) と呼ばれるマージ手法によって複数のプロトタイプがマージされ、k が先験的に与えられることなく、より適切な極小値が得られます。
具体的には、CM は最適なマージを取得し、正しい k を推定できます。
これら 2 つの手法を K-Means アルゴリズムと統合することにより、提案された MCKM は、最初に k を指定せずに K-Means 問題の望ましくない極小値を回避するための効率的で説明可能なクラスタリング アルゴリズムです。
合成および実世界のデータセットに対して実行された実験結果により、提案されたアルゴリズムの有効性が検証されました。

要約(オリジナル)

K-Means algorithm is a popular clustering method. However, it has two limitations: 1) it gets stuck easily in spurious local minima, and 2) the number of clusters k has to be given a priori. To solve these two issues, a multi-prototypes convex merging based K-Means clustering algorithm (MCKM) is presented. First, based on the structure of the spurious local minima of the K-Means problem, a multi-prototypes sampling (MPS) is designed to select the appropriate number of multi-prototypes for data with arbitrary shapes. A theoretical proof is given to guarantee that the multi-prototypes selected by MPS can achieve a constant factor approximation to the optimal cost of the K-Means problem. Then, a merging technique, called convex merging (CM), merges the multi-prototypes to get a better local minima without k being given a priori. Specifically, CM can obtain the optimal merging and estimate the correct k. By integrating these two techniques with K-Means algorithm, the proposed MCKM is an efficient and explainable clustering algorithm for escaping the undesirable local minima of K-Means problem without given k first. Experimental results performed on synthetic and real-world data sets have verified the effectiveness of the proposed algorithm.

arxiv情報

著者 Dong Li,Shuisheng Zhou,Tieyong Zeng,Raymond H. Chan
発行日 2023-02-14 13:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク