Randomly Projected Convex Clustering Model: Motivation, Realization, and Cluster Recovery Guarantees

要約

この論文では、$\mathbb{R}^d$ の $n$ 個の高次元データ ポイントのコレクションを $K$ 個の隠れクラスターでクラスタリングするための、ランダムに射影された凸クラスタリング モデルを提案します。
元のデータを次元 $d$ でクラスタリングするための凸クラスタリング モデルと比較して、いくつかの穏やかな条件下で、凸クラスタリング モデルのクラスタ メンバーシップ割り当ての完全な回復が、存在する場合、ランダムに射影された凸によって保持できることを証明します。
$0 < \epsilon < 1$ は、特定のパラメータです。 さらに、埋め込み次元を $O(\epsilon^{-2}\log(K))$ に改善できることを証明します。これは、データ ポイントの数に依存しません。 この論文では、ランダムに射影された凸クラスタリングモデルの堅牢性と優れたパフォーマンスを実証するために、広範な数値実験結果を提示します。 この論文で提示された数値結果は、ランダムに射影された凸クラスタリング モデルが、実際にはランダムに射影された K-means モデルよりも優れていることも示しています。

要約(オリジナル)

In this paper, we propose a randomly projected convex clustering model for clustering a collection of $n$ high dimensional data points in $\mathbb{R}^d$ with $K$ hidden clusters. Compared to the convex clustering model for clustering original data with dimension $d$, we prove that, under some mild conditions, the perfect recovery of the cluster membership assignments of the convex clustering model, if exists, can be preserved by the randomly projected convex clustering model with embedding dimension $m = O(\epsilon^{-2}\log(n))$, where $0 < \epsilon < 1$ is some given parameter. We further prove that the embedding dimension can be improved to be $O(\epsilon^{-2}\log(K))$, which is independent of the number of data points. Extensive numerical experiment results will be presented in this paper to demonstrate the robustness and superior performance of the randomly projected convex clustering model. The numerical results presented in this paper also demonstrate that the randomly projected convex clustering model can outperform the randomly projected K-means model in practice.

arxiv情報

著者 Ziwen Wang,Yancheng Yuan,Jiaming Ma,Tieyong Zeng,Defeng Sun
発行日 2023-03-29 16:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク