Visualizing Overlapping Biclusterings and Boolean Matrix Factorizations

要約

二部グラフで (二) クラスターを見つけることは、一般的なデータ分析アプローチです。
通常、アナリストはクラスターを視覚化したいと考えますが、クラスターが互いに素であれば視覚化は簡単です。
ただし、最新のアルゴリズムの多くは重複するクラスターを検出するため、視覚化がより複雑になります。
この論文では、二部グラフで重複するクラスターの \emph{与えられたクラスタリング} を視覚化する問題と、ブール行列分解を視覚化する関連問題を研究します。
私たちは、優れたビジュアライゼーションが満たすべき 3 つの異なる目標を概念化します。(1) クラスター要素の近接性、(2) 同じクラスターからの要素の大きな連続領域、(3) クラスターのメンバーシップに関係なく、ビジュアライゼーション内の途切れない大きな領域。
これらの目標を捉える目的関数と、これらの目的関数を最適化するアルゴリズムを提供します。
興味深いことに、現実世界のデータセットでの実験では、これらの競合する目標間の最適なトレードオフが、同様のクラスター メンバーシップを持つ行と列をローカルに隣接して配置することを目的とした新しいヒューリスティックによって達成されることがわかりました。

要約(オリジナル)

Finding (bi-)clusters in bipartite graphs is a popular data analysis approach. Analysts typically want to visualize the clusters, which is simple as long as the clusters are disjoint. However, many modern algorithms find overlapping clusters, making visualization more complicated. In this paper, we study the problem of visualizing \emph{a given clustering} of overlapping clusters in bipartite graphs and the related problem of visualizing Boolean Matrix Factorizations. We conceptualize three different objectives that any good visualization should satisfy: (1) proximity of cluster elements, (2) large consecutive areas of elements from the same cluster, and (3) large uninterrupted areas in the visualization, regardless of the cluster membership. We provide objective functions that capture these goals and algorithms that optimize these objective functions. Interestingly, in experiments on real-world datasets, we find that the best trade-off between these competing goals is achieved by a novel heuristic, which locally aims to place rows and columns with similar cluster membership next to each other.

arxiv情報

著者 Thibault Marette,Pauli Miettinen,Stefan Neumann
発行日 2023-07-14 15:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク