Selecting the number of clusters, clustering models, and algorithms. A unifying approach based on the quadratic discriminant score

要約

クラスター分析には、クラスター化方法と暗黙の参照モデル、クラスターの数、そして多くの場合、いくつかのハイパーパラメーターとアルゴリズムの調整など、多くの決定が必要です。
実際には、複数のパーティションが作成され、検証または選択基準に基づいて最後のパーティションが選択されます。
暗黙的または明示的に、特定のクラスタリングの概念を前提とした検証方法が多数存在します。
さらに、多くの場合、特定のメソッドから取得されたパーティションでの操作に制限されます。
この論文では、二次境界または線形境界によって適切に分離できるグループに焦点を当てます。
参照クラスターの概念は、二次判別スコア関数と、クラスターのサイズ、中心、分散を記述するパラメーターによって定義されます。
私たちは二次スコアと呼ばれる 2 つのクラスター品質基準を開発します。
これらの基準が、楕円対称分布の一般的なクラスから生成されたグループと一致することを示します。
このタイプのグループの探索は、アプリケーションでは一般的です。
混合モデルおよびモデルベースのクラスタリングの尤度理論との関連が調査されます。
二次スコアのブートストラップ リサンプリングに基づいて、多くのクラスタリング ソリューションの中から選択できる選択ルールを提案します。
提案手法は、他の最先端の手法では比較できないパーティションを比較できるという際立った利点を持っています。
広範な数値実験と実際のデータの分析により、一部の設定では競合する方法の方が優れていることが判明したとしても、提案された方法論が全体的により優れたパフォーマンスを達成できることが示されています。

要約(オリジナル)

Cluster analysis requires many decisions: the clustering method and the implied reference model, the number of clusters and, often, several hyper-parameters and algorithms’ tunings. In practice, one produces several partitions, and a final one is chosen based on validation or selection criteria. There exist an abundance of validation methods that, implicitly or explicitly, assume a certain clustering notion. Moreover, they are often restricted to operate on partitions obtained from a specific method. In this paper, we focus on groups that can be well separated by quadratic or linear boundaries. The reference cluster concept is defined through the quadratic discriminant score function and parameters describing clusters’ size, center and scatter. We develop two cluster-quality criteria called quadratic scores. We show that these criteria are consistent with groups generated from a general class of elliptically-symmetric distributions. The quest for this type of groups is common in applications. The connection with likelihood theory for mixture models and model-based clustering is investigated. Based on bootstrap resampling of the quadratic scores, we propose a selection rule that allows choosing among many clustering solutions. The proposed method has the distinctive advantage that it can compare partitions that cannot be compared with other state-of-the-art methods. Extensive numerical experiments and the analysis of real data show that, even if some competing methods turn out to be superior in some setups, the proposed methodology achieves a better overall performance.

arxiv情報

著者 Luca Coraggio,Pietro Coretto
発行日 2023-08-11 15:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク