Interpretable Clustering with the Distinguishability Criterion

要約

クラスター分析は、サンプル内の異種の部分母集団を識別するために多くの分野で使用される人気のある教師なし学習ツールです。
ただし、クラスター分析の結果を検証し、データセット内のクラスターの数を決定することは未解決の問題のままです。
この研究では、識別されたクラスターの分離可能性を定量化し、推定されたクラスター構成を検証するための、識別可能性基準と呼ばれるグローバル基準を提示します。
識別可能性基準の計算による実装は、0-1 損失の下でのランダム化分類子のベイズ リスクに対応します。
我々は、識別可能性基準を、階層的クラスタリング、K 平均法、有限混合モデルなどの一般的に使用される多くのクラスタリング手順と統合する、結合された損失関数ベースの計算フレームワークを提案します。
これらの新しいアルゴリズムと、シミュレーション研究と実際のデータ アプリケーションに基づく包括的なデータ分析の結果を紹介します。

要約(オリジナル)

Cluster analysis is a popular unsupervised learning tool used in many disciplines to identify heterogeneous sub-populations within a sample. However, validating cluster analysis results and determining the number of clusters in a data set remains an outstanding problem. In this work, we present a global criterion called the Distinguishability criterion to quantify the separability of identified clusters and validate inferred cluster configurations. Our computational implementation of the Distinguishability criterion corresponds to the Bayes risk of a randomized classifier under the 0-1 loss. We propose a combined loss function-based computational framework that integrates the Distinguishability criterion with many commonly used clustering procedures, such as hierarchical clustering, k-means, and finite mixture models. We present these new algorithms as well as the results from comprehensive data analysis based on simulation studies and real data applications.

arxiv情報

著者 Ali Turfah,Xiaoquan Wen
発行日 2024-04-25 17:13:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク