Convex Clustering through MM: An Efficient Algorithm to Perform Hierarchical Clustering

要約

凸面クラスタリングは、階層的クラスタリング特性と $k$-means クラスタリング特性の両方を備えた最新の手法です。
凸クラスタリングはデータに隠れた複雑なクラスタリング構造を捕捉できますが、既存の凸クラスタリング アルゴリズムはサンプル サイズが数千を超える大規模なデータ セットには拡張できません。
さらに、凸型クラスタリングでは完全な階層クラスタリング構造を生成できない場合があることが知られています。
この問題は、クラスターが分割された場合、または可能なクラスターの最小数が必要なクラスター数より大きい場合に発生します。
この論文では、メジャー化最小化 (CCMM) による凸クラスタリングを提案します。これは、クラスター融合を使用する反復アルゴリズムと、対角メジャー化を使用して導出される高効率な更新スキームです。
さらに、階層的クラスタリング構造が単一のクラスターで終了することを保証するためのさまざまな戦略を検討します。
現在のデスクトップ コンピューターを使用して、CCMM は 7 次元空間内の 100 万を超えるオブジェクトを特徴とする凸クラスタリング問題を効率的に解き、平均 51 秒の解法時間を達成します。

要約(オリジナル)

Convex clustering is a modern method with both hierarchical and $k$-means clustering characteristics. Although convex clustering can capture complex clustering structures hidden in data, the existing convex clustering algorithms are not scalable to large data sets with sample sizes greater than several thousands. Moreover, it is known that convex clustering sometimes fails to produce a complete hierarchical clustering structure. This issue arises if clusters split up or the minimum number of possible clusters is larger than the desired number of clusters. In this paper, we propose convex clustering through majorization-minimization (CCMM) — an iterative algorithm that uses cluster fusions and a highly efficient updating scheme derived using diagonal majorization. Additionally, we explore different strategies to ensure that the hierarchical clustering structure terminates in a single cluster. With a current desktop computer, CCMM efficiently solves convex clustering problems featuring over one million objects in seven-dimensional space, achieving a solution time of 51 seconds on average.

arxiv情報

著者 Daniel J. W. Touw,Patrick J. F. Groenen,Yoshikazu Terada
発行日 2023-12-21 18:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク