要約
クラスタリングモデルのパフォーマンスを評価することは、結果がクラスターを構成するものの定義に依存する挑戦的なタスクです。
この設計により、現在の既存のメトリックは、多様なクラスター定義を備えた複数のクラスタリングモデルをめったに処理することはほとんどなく、利用可能な場合は制約の統合に準拠していません。
この作業では、コンセンサスクラスタリングからインスピレーションを得て、一連のクラスタリングモデルがデータの隠された構造を明らかにできると仮定します。
クラスタリングモデルの接続性とコンセンサスマトリックスの間の距離に基づいて、アンサンブルクラスタリングを通じて識別順序を構築することを提案します。
最初に提案された方法を合成シナリオで検証し、提案されたスコアが最初にコンセンサスに最もよく一致するモデルをランク付けすることを強調します。
次に、この単純なランキングスコアは、固定数のクラスターに限定されておらず、クラスタリングの制約と互換性のある異なるクラスタリングアルゴリズムのセットを比較するときに、他のスコアリング方法を大幅に上回ることを示します。
要約(オリジナル)
Evaluating the performance of clustering models is a challenging task where the outcome depends on the definition of what constitutes a cluster. Due to this design, current existing metrics rarely handle multiple clustering models with diverse cluster definitions, nor do they comply with the integration of constraints when available. In this work, we take inspiration from consensus clustering and assume that a set of clustering models is able to uncover hidden structures in the data. We propose to construct a discriminative ordering through ensemble clustering based on the distance between the connectivity of a clustering model and the consensus matrix. We first validate the proposed method with synthetic scenarios, highlighting that the proposed score ranks the models that best match the consensus first. We then show that this simple ranking score significantly outperforms other scoring methods when comparing sets of different clustering algorithms that are not restricted to a fixed number of clusters and is compatible with clustering constraints.
arxiv情報
著者 | Louis Ohl,Fredrik Lindsten |
発行日 | 2025-05-07 14:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google