A Clustering Method with Graph Maximum Decoding Information

要約

グラフ モデルに基づくクラスタリング手法は、さまざまな知識領域に広く適用できるため、ますます注目を集めています。
他の関連アプリケーションとシームレスに統合する適応性により、グラフ モデル ベースのクラスタリング分析に、データセット内の「自然な関連性」または「グラフ構造」を堅牢に抽出する機能が与えられ、データ ポイント間の関係のモデリングが容易になります。
その有効性にもかかわらず、グラフベースのモデルを利用した現在のクラスタリング方法では、ノード間のランダム ウォーク アクセスとデータに埋め込まれた構造情報に関連する不確実性が見落とされています。
このギャップに対処するために、CMDI と呼ばれる、グラフベースのモデル内でデコード情報を最大化するための新しいクラスタリング手法を提案します。
CMDI は、2 次元構造情報理論をクラスタリング プロセスに革新的に組み込み、グラフ構造抽出とグラフ頂点分割の 2 つのフェーズで構成されます。
CMDI 内では、グラフ分割が抽象的なクラスタリング問題として再定式化され、最大のデコード情報を活用して頂点へのランダムな訪問に伴う不確実性を最小限に抑えます。
3 つの現実世界のデータセットに対する経験的評価では、CMDI が従来のベースライン手法を上回り、優れた復号情報比 (DI-R) を示していることが実証されています。
さらに、CMDI は、特に事前知識 (PK) を考慮する場合に、効率の向上を示します。
これらの発見は、デコード情報の品質と計算効率の向上における CMDI の有効性を強調し、CMDI をグラフベースのクラスタリング分析における貴重なツールとして位置づけています。

要約(オリジナル)

The clustering method based on graph models has garnered increased attention for its widespread applicability across various knowledge domains. Its adaptability to integrate seamlessly with other relevant applications endows the graph model-based clustering analysis with the ability to robustly extract ‘natural associations’ or ‘graph structures’ within datasets, facilitating the modelling of relationships between data points. Despite its efficacy, the current clustering method utilizing the graph-based model overlooks the uncertainty associated with random walk access between nodes and the embedded structural information in the data. To address this gap, we present a novel Clustering method for Maximizing Decoding Information within graph-based models, named CMDI. CMDI innovatively incorporates two-dimensional structural information theory into the clustering process, consisting of two phases: graph structure extraction and graph vertex partitioning. Within CMDI, graph partitioning is reformulated as an abstract clustering problem, leveraging maximum decoding information to minimize uncertainty associated with random visits to vertices. Empirical evaluations on three real-world datasets demonstrate that CMDI outperforms classical baseline methods, exhibiting a superior decoding information ratio (DI-R). Furthermore, CMDI showcases heightened efficiency, particularly when considering prior knowledge (PK). These findings underscore the effectiveness of CMDI in enhancing decoding information quality and computational efficiency, positioning it as a valuable tool in graph-based clustering analyses.

arxiv情報

著者 Xinrun Xu,Manying Lv,Zhanbiao Lian,Yurong Wu,Jin Yan,Shan Jiang,Zhiming Ding
発行日 2024-04-18 12:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク