Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models

要約

クラスタリングは教師なし機械学習における極めて重要な課題であり、混合モデルのレンズを通して研究されることがよくあります。
ガウス混合モデルおよびサブガウス混合モデルでクラスター ラベルを回復するための最適な誤り率には、アドホックな信号対雑音比が関係します。
ロイズ アルゴリズムなどの単純な反復アルゴリズムは、この最適な誤り率を達成します。
この論文では、まず、混合モデルをクラスタリングする際のエラー率の普遍的な下限を確立します。これは、信号対雑音比よりもモデル情報のより汎用性の高い尺度であるチェルノフ発散を通じて表現されます。
次に、反復アルゴリズムが、特にラプラス分布誤差を特徴とする位置スケールの混合を強調する、準指数テールを持つ混合モデルでこの下限を達成することを示します。
さらに、ポアソン混合または負の二項混合によってより適切にモデル化されたデータセットについては、分布が指数関数族に属する混合モデルを研究します。
このような混合では、ブレグマン発散を使用するロイド アルゴリズムの変形であるブレグマン ハード クラスタリングがレート最適であることを確立します。

要約(オリジナル)

Clustering is a pivotal challenge in unsupervised machine learning and is often investigated through the lens of mixture models. The optimal error rate for recovering cluster labels in Gaussian and sub-Gaussian mixture models involves ad hoc signal-to-noise ratios. Simple iterative algorithms, such as Lloyd’s algorithm, attain this optimal error rate. In this paper, we first establish a universal lower bound for the error rate in clustering any mixture model, expressed through a Chernoff divergence, a more versatile measure of model information than signal-to-noise ratios. We then demonstrate that iterative algorithms attain this lower bound in mixture models with sub-exponential tails, notably emphasizing location-scale mixtures featuring Laplace-distributed errors. Additionally, for datasets better modelled by Poisson or Negative Binomial mixtures, we study mixture models whose distributions belong to an exponential family. In such mixtures, we establish that Bregman hard clustering, a variant of Lloyd’s algorithm employing a Bregman divergence, is rate optimal.

arxiv情報

著者 Maximilien Dreveton,Alperen Gözeten,Matthias Grossglauser,Patrick Thiran
発行日 2024-02-23 16:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62B10, 62F12, 62H30, cs.LG, math.ST, stat.ML, stat.TH パーマリンク