要約
データ クラスタリングの多くのアプリケーションでは、クラスターへの単一のパーティションを見つけるだけでなく、さまざまなスケール (または粗さのレベル) でデータを記述する一連のパーティションを見つけることが望ましいです。
したがって、必然的な問題は、データのマルチスケール記述を支える (必ずしも階層的ではない) パーティションのシーケンスを分析して比較することです。
ここでは、粗さが増加するスケール全体でクラスター割り当ての任意のパターンをエンコードする、抽象単純複合体の明確に定義された安定したフィルターであるマルチスケール クラスタリング フィルター (MCF) を紹介します。
我々は、MCF の 0 次元の永続的相同性が一連のパーティションの階層の程度を測定し、高次元の永続的相同性が一連のパーティションにわたるクラスター割り当て間の競合の出現と解決を追跡することを示します。
MCF の理論的基礎を広げるために、神経複合体フィルタリングによる同等の構築も提供し、階層的なケースでは MCF が超計量空間の Vietoris-Rips フィルタリングに帰着することを示します。
次に、数値実験を使用して、確率的ブロック モデルからの合成データのマルチスケール クラスタリングを特徴付けるために MCF がどのように機能するかを説明します。
要約(オリジナル)
In many applications in data clustering, it is desirable to find not just a single partition into clusters but a sequence of partitions describing the data at different scales (or levels of coarseness). A natural problem then is to analyse and compare the (not necessarily hierarchical) sequences of partitions that underpin multiscale descriptions of data. Here, we introduce the Multiscale Clustering Filtration (MCF), a well-defined and stable filtration of abstract simplicial complexes that encodes arbitrary patterns of cluster assignments across scales of increasing coarseness. We show that the zero-dimensional persistent homology of the MCF measures the degree of hierarchy in the sequence of partitions, and the higher-dimensional persistent homology tracks the emergence and resolution of conflicts between cluster assignments across the sequence of partitions. To broaden the theoretical foundations of the MCF, we also provide an equivalent construction via a nerve complex filtration, and we show that in the hierarchical case, the MCF reduces to a Vietoris-Rips filtration of an ultrametric space. We then use numerical experiments to illustrate how the MCF can serve to characterise multiscale clusterings of synthetic data from stochastic block models.
arxiv情報
著者 | Dominik J. Schindler,Mauricio Barahona |
発行日 | 2024-11-29 18:33:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google