When Does Bottom-up Beat Top-down in Hierarchical Community Detection?

要約

ネットワークの階層的クラスタリングは、コミュニティのツリーを見つけることで構成され、階層の下位レベルではよりきめの細かいコミュニティ構造が明らかになります。
この問題に取り組むアルゴリズムには主に 2 つのクラスがあります。
分割 ($\textit{top-down}$) アルゴリズムは、停止ルールによってこれ以上分割する必要がないことが示されるまで、ノードを 2 つのコミュニティに再帰的に分割します。
対照的に、凝集型 ($\textit{bottom-up}$) アルゴリズムは、最初に最小のコミュニティ構造を特定し、次に $\textit{linkage}$ メソッドを使用してコミュニティを繰り返しマージします。
この記事では、ボトムアップ アルゴリズムによる階層確率ブロック モデルの階層ツリーとコミュニティ構造の回復に対する理論的保証を確立します。
また、このボトムアップ アルゴリズムが階層の中間レベルで正確な回復のための情報理論的閾値に達することも確立します。
特に、これらの回復条件は、トップダウン アルゴリズムの場合に比べて制限が緩くなっています。
これは、ボトムアップ アルゴリズムが中間レベルで正確な回復を達成するための実行可能領域を拡張することを示しています。
合成データセットと実際のデータセットの両方に対する数値実験により、トップダウン アルゴリズムに対するボトムアップ アルゴリズムの優位性が確認されています。
また、トップダウン アルゴリズムが反転を含む樹状図を生成できることも観察しました。
これらの発見は、階層的クラスタリング技術とネットワーク分析におけるその応用についてのより深い理解に貢献します。

要約(オリジナル)

Hierarchical clustering of networks consists in finding a tree of communities, such that lower levels of the hierarchy reveal finer-grained community structures. There are two main classes of algorithms tackling this problem. Divisive ($\textit{top-down}$) algorithms recursively partition the nodes into two communities, until a stopping rule indicates that no further split is needed. In contrast, agglomerative ($\textit{bottom-up}$) algorithms first identify the smallest community structure and then repeatedly merge the communities using a $\textit{linkage}$ method. In this article, we establish theoretical guarantees for the recovery of the hierarchical tree and community structure of a Hierarchical Stochastic Block Model by a bottom-up algorithm. We also establish that this bottom-up algorithm attains the information-theoretic threshold for exact recovery at intermediate levels of the hierarchy. Notably, these recovery conditions are less restrictive compared to those existing for top-down algorithms. This shows that bottom-up algorithms extend the feasible region for achieving exact recovery at intermediate levels. Numerical experiments on both synthetic and real data sets confirm the superiority of bottom-up algorithms over top-down algorithms. We also observe that top-down algorithms can produce dendrograms with inversions. These findings contribute to a better understanding of hierarchical clustering techniques and their applications in network analysis.

arxiv情報

著者 Maximilien Dreveton,Daichi Kuroda,Matthias Grossglauser,Patrick Thiran
発行日 2024-07-24 13:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, math.ST, stat.ME, stat.ML, stat.TH パーマリンク