A correlation-based fuzzy cluster validity index with secondary options detector

要約

クラスター分析を適用する際の主な懸念事項の 1 つは、クラスターの最適な数です。
この問題に対処するために、いくつかのクラスター有効性インデックスが導入されました。
ただし、状況によっては、最終的なクラスター数として複数のオプションを選択できる場合があります。
この側面は、この分野の既存の作品のほとんどでは見落とされてきました。
この研究では、Wiroonsri-Preedasawakul (WP) インデックスとして知られる相関ベースのファジー クラスター妥当性インデックスを導入します。
このインデックスは、データ ポイントのペア間の実際の距離と、そのペアに関する調整された重心間の距離の間の相関に基づいて定義されます。
当社のインデックスのパフォーマンスを、Xie-Beni、Pakhira-Bandyopadhyay-Maulik、Tang、Wu-Li、generalized C、Kwon2 などのいくつかの既存のインデックスと評価および比較します。
ファジー C 平均法アルゴリズムを使用して、人工データセット、現実世界のデータセット、ランク付きのシミュレートされたデータセット、画像データセットの 4 種類のデータセットに対してこの評価を実行します。
全体として、WP インデックスは、最適なクラスター数を正確に検出し、正確な二次オプションを提供するという点で、これらのインデックスのすべてではないにしても、ほとんどのインデックスよりも優れています。
さらに、ファジーパラメータ $m$ が大きな値に設定されている場合でも、インデックスは有効なままです。
この作業で使用されている UniversalCVI と呼ばれる R パッケージは、https://CRAN.R-project.org/package=UniversalCVI で入手できます。

要約(オリジナル)

The optimal number of clusters is one of the main concerns when applying cluster analysis. Several cluster validity indexes have been introduced to address this problem. However, in some situations, there is more than one option that can be chosen as the final number of clusters. This aspect has been overlooked by most of the existing works in this area. In this study, we introduce a correlation-based fuzzy cluster validity index known as the Wiroonsri-Preedasawakul (WP) index. This index is defined based on the correlation between the actual distance between a pair of data points and the distance between adjusted centroids with respect to that pair. We evaluate and compare the performance of our index with several existing indexes, including Xie-Beni, Pakhira-Bandyopadhyay-Maulik, Tang, Wu-Li, generalized C, and Kwon2. We conduct this evaluation on four types of datasets: artificial datasets, real-world datasets, simulated datasets with ranks, and image datasets, using the fuzzy c-means algorithm. Overall, the WP index outperforms most, if not all, of these indexes in terms of accurately detecting the optimal number of clusters and providing accurate secondary options. Moreover, our index remains effective even when the fuzziness parameter $m$ is set to a large value. Our R package called UniversalCVI used in this work is available at https://CRAN.R-project.org/package=UniversalCVI.

arxiv情報

著者 Nathakhun Wiroonsri,Onthada Preedasawakul
発行日 2023-10-16 16:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク