Categorical data clustering: 25 years beyond K-modes

要約

カテゴリデータのクラスタリングはコンピュータ サイエンスにおける一般的かつ重要なタスクであり、さまざまなアプリケーションにわたって重大な影響を及ぼします。
純粋な数値データとは異なり、カテゴリデータは名目データのような固有の順序付けを欠いていることが多く、順序データのようにさまざまなレベルの順序を持​​っているため、効率的な編成と分析には特殊な方法論が必要です。
このレビューでは、K モードの導入から始まった過去 25 年間のカテゴリカル データ クラスタリングの包括的な統合を提供します。
健康科学、自然科学、社会科学、教育、工学、経済学などのさまざまな分野におけるカテゴリカル データ クラスタリングの極めて重要な役割を解明します。
公開実装されているアルゴリズムに対して実際的な比較が行われ、特徴的なクラスタリング方法論が強調され、いくつかのベンチマーク カテゴリ データセットに対する最近のアルゴリズムのパフォーマンスが明らかにされます。
最後に、この分野における課題と機会について説明します。

要約(オリジナル)

The clustering of categorical data is a common and important task in computer science, offering profound implications across a spectrum of applications. Unlike purely numerical data, categorical data often lack inherent ordering as in nominal data, or have varying levels of order as in ordinal data, thus requiring specialized methodologies for efficient organization and analysis. This review provides a comprehensive synthesis of categorical data clustering in the past twenty-five years, starting from the introduction of K-modes. It elucidates the pivotal role of categorical data clustering in diverse fields such as health sciences, natural sciences, social sciences, education, engineering and economics. Practical comparisons are conducted for algorithms having public implementations, highlighting distinguishing clustering methodologies and revealing the performance of recent algorithms on several benchmark categorical datasets. Finally, challenges and opportunities in the field are discussed.

arxiv情報

著者 Tai Dinh,Wong Hauchi,Philippe Fournier-Viger,Daniil Lisik,Minh-Quyet Ha,Hieu-Chi Dam,Van-Nam Huynh
発行日 2024-09-09 13:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク