Hierarchical clustering with dot products recovers hidden tree structure

要約

この論文では、階層構造の回復に焦点を当て、確立された凝集クラスタリング アルゴリズムに関する新しい視点を提供します。
標準アルゴリズムの単純な変形を推奨します。このアルゴリズムでは、最小距離やクラスター内の分散などではなく、最大平均内積によってクラスターがマージされます。
このアルゴリズムによるツリー出力が、一般的な確率的グラフィカル モデルの下で、データ内の生成階層構造の正確な推定を提供することを実証します。
重要な技術革新は、このモデルの階層情報がデータから復元できるツリー ジオメトリにどのように変換されるかを理解し、サンプル サイズとデータ次元が同時に増大する利点を特徴付けることです。
UPGMA、Ward の手法、HDBSCAN などの既存のアプローチよりも実際のデータで優れたツリー回復パフォーマンスを実証します。

要約(オリジナル)

In this paper we offer a new perspective on the well established agglomerative clustering algorithm, focusing on recovery of hierarchical structure. We recommend a simple variant of the standard algorithm, in which clusters are merged by maximum average dot product and not, for example, by minimum distance or within-cluster variance. We demonstrate that the tree output by this algorithm provides a bona fide estimate of generative hierarchical structure in data, under a generic probabilistic graphical model. The key technical innovations are to understand how hierarchical information in this model translates into tree geometry which can be recovered from data, and to characterise the benefits of simultaneously growing sample size and data dimension. We demonstrate superior tree recovery performance with real data over existing approaches such as UPGMA, Ward’s method, and HDBSCAN.

arxiv情報

著者 Annie Gray,Alexander Modell,Patrick Rubin-Delanchy,Nick Whiteley
発行日 2023-11-08 16:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク