An objective function for order preserving hierarchical clustering

要約

確率的部分順序と有向非巡回グラフ (DAG) の類似性に基づく階層的クラスタリングの理論と目的関数を提示します。
具体的には、半順序の要素 $x \le y$ と、それらのそれぞれのクラスター $[x]$ と $[y]$ が与えられると、理論では $[x のようなクラスター上の順序関係 $\le’$ が得られます。
]\le'[y]$。
この理論は、順序保存階層型クラスタリングの簡潔な定義を提供し、順序保存ツリー (樹状図) を特定する分類定理を提供します。
最適な順序保存ツリーを決定するために、順序関係と類似性尺度の両方を満たすことを目的として、問題を双目的最適化として組み立てる目的関数を開発します。
目的に沿った最適なツリーが順序を保持し、高品質の階層的クラスタリングを示すことを証明します。
最適な解を見つけるのは NP 困難であるため、多項式時間近似アルゴリズムを導入し、この方法が順序を保持した階層的クラスタリングの既存の方法よりも大幅に優れていることを示します。

要約(オリジナル)

We present a theory and an objective function for similarity-based hierarchical clustering of probabilistic partial orders and directed acyclic graphs (DAGs). Specifically, given elements $x \le y$ in the partial order, and their respective clusters $[x]$ and $[y]$, the theory yields an order relation $\le’$ on the clusters such that $[x]\le'[y]$. The theory provides a concise definition of order-preserving hierarchical clustering, and offers a classification theorem identifying the order-preserving trees (dendrograms). To determine the optimal order-preserving trees, we develop an objective function that frames the problem as a bi-objective optimisation, aiming to satisfy both the order relation and the similarity measure. We prove that the optimal trees under the objective are both order-preserving and exhibit high-quality hierarchical clustering. Since finding an optimal solution is NP-hard, we introduce a polynomial-time approximation algorithm and demonstrate that the method outperforms existing methods for order-preserving hierarchical clustering by a significant margin.

arxiv情報

著者 Daniel Bakkelund
発行日 2024-12-10 18:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 06A06, 62H30, cs.LG, G.1.6, math.CO パーマリンク