A testing-based approach to assess the clusterability of categorical data

要約

クラスタ性評価の目的は、データセット内にクラスタリング構造が存在するかどうかを確認することです。
クラスター分析では重要だが見落とされがちな問題であるため、クラスター化アルゴリズムを適用する前にこのようなテストを実行することが不可欠です。
データセットがクラスタリング不可能な場合、その後のクラスタリング分析では有効な結果が得られません。
その重要性にもかかわらず、既存の研究の大部分は数値データに焦点を当てており、カテゴリデータのクラスタビリティ評価の問題は未解決の問題として残されています。
ここでは、分析 $p$ 値の観点からカテゴリ データのクラスター可能性を評価するテストベースのアプローチである TestCat を紹介します。
TestCat の基礎となる重要な考え方は、クラスター化可能なカテゴリデータには相関の強い属性ペアが多数あるため、すべての属性ペアのカイ 2 乗統計量の合計が $p$ 値計算の検定統計量として使用されるということです。
私たちの手法を一連のベンチマーク カテゴリ データ セットに適用し、TestCat が数値データに対する既存のクラスター性評価手法に基づくソリューションよりも優れていることを示します。
私たちの知る限り、私たちの研究は、統計的に健全な方法でカテゴリデータのクラスター性を効果的に認識する最初の方法を提供します。

要約(オリジナル)

The objective of clusterability evaluation is to check whether a clustering structure exists within the data set. As a crucial yet often-overlooked issue in cluster analysis, it is essential to conduct such a test before applying any clustering algorithm. If a data set is unclusterable, any subsequent clustering analysis would not yield valid results. Despite its importance, the majority of existing studies focus on numerical data, leaving the clusterability evaluation issue for categorical data as an open problem. Here we present TestCat, a testing-based approach to assess the clusterability of categorical data in terms of an analytical $p$-value. The key idea underlying TestCat is that clusterable categorical data possess many strongly correlated attribute pairs and hence the sum of chi-squared statistics of all attribute pairs is employed as the test statistic for $p$-value calculation. We apply our method to a set of benchmark categorical data sets, showing that TestCat outperforms those solutions based on existing clusterability evaluation methods for numeric data. To the best of our knowledge, our work provides the first way to effectively recognize the clusterability of categorical data in a statistically sound manner.

arxiv情報

著者 Lianyu Hu,Junjie Dong,Mudi Jiang,Yan Liu,Zengyou He
発行日 2023-07-14 13:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP パーマリンク