Order is All You Need for Categorical Data Clustering

要約

定性的評価属性で構成されるカテゴリデータは、機械学習タスクで遍在しています。
明確に定義されたメトリック空間がないため、カテゴリのデータ分布を直感的に理解することは困難です。
クラスタリングは、データ分布の理解に適した一般的なデータ分析手法です。
ただし、クラスタリングの成功は、多くの場合、合理的な距離メトリックに依存しています。これは、たまたまカテゴリーデータが自然に欠けているものです。
したがって、このホワイトペーパーでは、属性値間の順序関係がクラスタリングの精度の決定的な要因であるという新しい発見を紹介し、クラスタリングの本質はサンプルへの入場の観点からクラスターを注文することであるため、カテゴリデータクラスターを理解するための鍵でもあります。
注文を取得するために、クラスターと注文の共同学習を可能にする新しい学習パラダイムを提案します。
代わりに、注文に基づいて構築された距離メトリックに基づいてデータをクラスターに分割し、クラスターに従って最も可能性の高い注文を推定します。
このアルゴリズムは、収束保証を使用して優れたクラスタリング精度を達成し、学習した注文は、カテゴリデータの直感的でないクラスター分布の理解を促進します。
アブレーション研究、統計的証拠、およびケーススタディに関する広範な実験により、価値順序の重要性と方法提案に関する新しい洞察が検証されました。
ソースコードは、https://anonymous.4open.science/r/ocl-demoで一時的に開かれています。

要約(オリジナル)

Categorical data composed of qualitative valued attributes are ubiquitous in machine learning tasks. Due to the lack of well-defined metric space, categorical data distributions are difficult to be intuitively understood. Clustering is a popular data analysis technique suitable for data distribution understanding. However, the success of clustering often relies on reasonable distance metrics, which happens to be what categorical data naturally lack. This paper therefore introduces a new finding that the order relation among attribute values is the decisive factor in clustering accuracy, and is also the key to understanding categorical data clusters, because the essence of clustering is to order the clusters in terms of their admission to samples. To obtain the orders, we propose a new learning paradigm that allows joint learning of clusters and the orders. It alternatively partitions the data into clusters based on the distance metric built upon the orders and estimates the most likely orders according to the clusters. The algorithm achieves superior clustering accuracy with a convergence guarantee, and the learned orders facilitate the understanding of the non-intuitive cluster distribution of categorical data. Extensive experiments with ablation studies, statistical evidence, and case studies have validated the new insight into the importance of value order and the method proposition. The source code is temporarily opened in https://anonymous.4open.science/r/OCL-demo.

arxiv情報

著者 Yiqun Zhang,Mingjie Zhao,Hong Jia,Yang Lu,Mengke Li,Yiu-ming Cheung
発行日 2025-04-18 12:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク