Computing Graph Descriptors on Edge Streams

要約

タイトル:エッジストリーム上でのグラフ記述子の計算
要約:
– 特徴抽出は、グラフ分析における重要なタスクである。
– 下流のベクトル空間ベースのグラフ分析モデルで使用されるこれらの特徴ベクトルはグラフ記述子と呼ばれる。
– 過去には、スペクトルベースのグラフ記述子が最先端の分類精度を提供することが証明されている。
– しかし、意味のある記述子を計算する既知のアルゴリズムは、(1)グラフ全体をメモリに保存する必要があるため、大規模なグラフにはスケーリングしない。また、(2)エンドユーザーがアルゴリズムのランタイムを制御できない。
– 本論文では、グラフの本質的な構造を捉える3つの異なるグラフ記述子を近似的に計算するためのストリーミングアルゴリズムを提案する。
– エッジストリーム上で動作することで、グラフ全体をメモリに保存する必要がなくなる。
– サンプルサイズを制御することで、アルゴリズムのランタイムを所望の範囲内に保つことができる。
– 提案された記述子の効果を、近似誤差と分類精度の分析によってデモンストレーションする。
– スケーラブルなアルゴリズムにより、数百万エッジのグラフの記述子を数分以内に計算することができる。
– さらに、これらの記述子は最先端の方法と同等の予測精度を提供するが、メモリ使用量は25%のみで計算することができる。

要約(オリジナル)

Feature extraction is an essential task in graph analytics. These feature vectors, called graph descriptors, are used in downstream vector-space-based graph analysis models. This idea has proved fruitful in the past, with spectral-based graph descriptors providing state-of-the-art classification accuracy. However, known algorithms to compute meaningful descriptors do not scale to large graphs since: (1) they require storing the entire graph in memory, and (2) the end-user has no control over the algorithm’s runtime. In this paper, we present streaming algorithms to approximately compute three different graph descriptors capturing the essential structure of graphs. Operating on edge streams allows us to avoid storing the entire graph in memory, and controlling the sample size enables us to keep the runtime of our algorithms within desired bounds. We demonstrate the efficacy of the proposed descriptors by analyzing the approximation error and classification accuracy. Our scalable algorithms compute descriptors of graphs with millions of edges within minutes. Moreover, these descriptors yield predictive accuracy comparable to the state-of-the-art methods but can be computed using only 25% as much memory.

arxiv情報

著者 Zohair Raza Hassan,Sarwan Ali,Imdadullah Khan,Mudassir Shabbir,Waseem Abbas
発行日 2023-04-08 20:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク