Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming

要約

K$-meansクラスタリングは,大規模データセットのパターンを識別するための機械学習手法として広く用いられている.最近、$K$平均最適化問題を解くための半正定値計画(SDP)緩和法が提案され、強力な統計的最適性保証を享受しているが、SDPソルバーを実装するための法外なコストのために、これらの保証は実用的なデータセットにアクセスできない。対照的に、非負行列分解(NMF)は単純なクラスタリングアルゴリズムであり、機械学習の実務家に広く利用されているが、確固たる統計的裏付けも厳密な保証もない。本論文では、非凸Burer–Monteiro分解アプローチを用いて、SDP緩和$K$-means定式化の非負低ランク制限を解くことで動作するNMF類似アルゴリズムについて述べる。結果として得られるアルゴリズムは、最新のNMFアルゴリズムと同様にシンプルでスケーラブルである一方、SDPと同様に強力な統計的最適性保証を享受できる。実験において、我々のアルゴリズムは、既存の最先端技術と比較して、クラスタリングミスの誤差を大幅に小さくすることを確認した。

要約(オリジナル)

$K$-means clustering is a widely used machine learning method for identifying patterns in large datasets. Semidefinite programming (SDP) relaxations have recently been proposed for solving the $K$-means optimization problem that enjoy strong statistical optimality guarantees, but the prohibitive cost of implementing an SDP solver renders these guarantees inaccessible to practical datasets. By contrast, nonnegative matrix factorization (NMF) is a simple clustering algorithm that is widely used by machine learning practitioners, but without a solid statistical underpinning nor rigorous guarantees. In this paper, we describe an NMF-like algorithm that works by solving a nonnegative low-rank restriction of the SDP relaxed $K$-means formulation using a nonconvex Burer–Monteiro factorization approach. The resulting algorithm is just as simple and scalable as state-of-the-art NMF algorithms, while also enjoying the same strong statistical optimality guarantees as the SDP. In our experiments, we observe that our algorithm achieves substantially smaller mis-clustering errors compared to the existing state-of-the-art.

arxiv情報

著者 Yubo Zhuang,Xiaohui Chen,Yun Yang,Richard Y. Zhang
発行日 2024-03-02 22:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク