Regularization and Optimization in Model-Based Clustering

要約

その概念の単純さから、k-meansアルゴリズムの亜種は教師なしクラスタ分析に広く使われてきた。しかし、これらのアルゴリズムの主な欠点の1つは、そのような分布から大きく逸脱したデータに対して、本質的に同一の球状ガウシアンの混合物を当てはめることである。これと比較して、一般的なガウス混合モデル(GMM)は、より豊かな構造にフィットすることができますが、共分散行列を表現するために、クラスタごとに2次数のパラメータを推定する必要があります。(i)最適化問題は、局所極小値の数が多いため困難である。本研究では、この2つの問題を回避する探索戦略を設計する。一般的なGMMに対してより効果的な最適化アルゴリズムを開発し、これらのアルゴリズムをオーバーフィットを回避する正則化戦略と組み合わせる。広範な計算解析により、最適化あるいは正則化単独ではクラスタ回復を実質的に改善しないことを確認した。しかし、これらの技術を組み合わせることで、k-meansアルゴリズムの亜種では達成できなかった全く新しいレベルの性能を実現し、大きく異なるクラスタ構造を解明することができる。これらの結果は、GMMとk-means法の間の現状に新たな光を当て、データ探索のために一般的なGMMをより頻繁に使用することを示唆する。このような応用を容易にするために、オープンソースのコードと、提案手法を実装したJuliaパッケージ(UnsupervisedClustering.jlとRegularizedCovarianceMatrices.jl)を提供する。

要約(オリジナル)

Due to their conceptual simplicity, k-means algorithm variants have been extensively used for unsupervised cluster analysis. However, one main shortcoming of these algorithms is that they essentially fit a mixture of identical spherical Gaussians to data that vastly deviates from such a distribution. In comparison, general Gaussian Mixture Models (GMMs) can fit richer structures but require estimating a quadratic number of parameters per cluster to represent the covariance matrices. This poses two main issues: (i) the underlying optimization problems are challenging due to their larger number of local minima, and (ii) their solutions can overfit the data. In this work, we design search strategies that circumvent both issues. We develop more effective optimization algorithms for general GMMs, and we combine these algorithms with regularization strategies that avoid overfitting. Through extensive computational analyses, we observe that optimization or regularization in isolation does not substantially improve cluster recovery. However, combining these techniques permits a completely new level of performance previously unachieved by k-means algorithm variants, unraveling vastly different cluster structures. These results shed new light on the current status quo between GMM and k-means methods and suggest the more frequent use of general GMMs for data exploration. To facilitate such applications, we provide open-source code as well as Julia packages (UnsupervisedClustering.jl and RegularizedCovarianceMatrices.jl) implementing the proposed techniques.

arxiv情報

著者 Raphael Araujo Sampaio,Joaquim Dias Garcia,Marcus Poggi,Thibaut Vidal
発行日 2024-02-05 18:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク