Jaccard-constrained dense subgraph discovery

要約

密なサブグラフを見つけることは、さまざまなドメインの多くのアプリケーションを伴うグラフ マイニングにおける中心的な問題です。
同時に、現実世界のネットワークの多くは時間の経過とともに変化します。つまり、データセットは一連のグラフ スナップショットとして表すことができます。
したがって、時間の経過とともにある程度の変化が許容される時間ネットワーク内で高密度のサブグラフを見つけるという問題を考えるのは自然です。
この論文では、大きなペアごとの Jaccard 類似性係数を持つ密な部分グラフを検索します。
より正式には、一連のグラフ スナップショットと重み $\lambda$ が与えられると、誘導されたサブグラフの密度の合計と $\lambda$ で重み付けされた Jaccard インデックスの合計が最大化されるような密なサブグラフのコレクションが見つかります。

この問題が NP 困難であることを証明します。
良好な客観値を持つ高密度の部分グラフを発見するために、1 回の反復あたり $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ 時間で実行される反復アルゴリズムと貪欲アルゴリズムを提示します。
これは $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ 時間で実行されます。ここで、$k$ はグラフ列の長さ、$n$ と $m$ は数値を示します
それぞれノードの数とエッジの総数です。
私たちは、アルゴリズムが効率的であり、合成データセットからグラウンド トゥルースを見つけ、現実世界のデータセットから解釈可能な結果を​​提供できることを実験的に示しています。
最後に、この問題の有用性を示すケーススタディを紹介します。

要約(オリジナル)

Finding dense subgraphs is a core problem in graph mining with many applications in diverse domains. At the same time many real-world networks vary over time, that is, the dataset can be represented as a sequence of graph snapshots. Hence, it is natural to consider the question of finding dense subgraphs in a temporal network that are allowed to vary over time to a certain degree. In this paper, we search for dense subgraphs that have large pairwise Jaccard similarity coefficients. More formally, given a set of graph snapshots and a weight $\lambda$, we find a collection of dense subgraphs such that the sum of densities of the induced subgraphs plus the sum of Jaccard indices, weighted by $\lambda$, is maximized. We prove that this problem is NP-hard. To discover dense subgraphs with good objective value, we present an iterative algorithm which runs in $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ time per single iteration, and a greedy algorithm which runs in $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ time, where $k$ is the length of the graph sequence and $n$ and $m$ denote number of nodes and total number of edges respectively. We show experimentally that our algorithms are efficient, they can find ground truth in synthetic datasets and provide interpretable results from real-world datasets. Finally, we present a case study that shows the usefulness of our problem.

arxiv情報

著者 Chamalee Wickrama Arachchi,Nikolaj Tatti
発行日 2023-08-30 10:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, cs.SI パーマリンク