Synthesizing Diverse Network Flow Datasets with Scalable Dynamic Multigraph Generation

要約

プライバシー、セキュリティ、および計算上の制約のため、実際のネットワークデータセットを取得することは、しばしば困難です。
このようなデータセットがない場合、グラフ生成モデルは合成データセットを作成するための不可欠なツールになります。
この論文では、現実世界のネットワークを代表する高忠実度の合成ネットワークフローデータセットを生成するための新しい機械学習モデルを紹介します。
私たちのアプローチでは、構造生成のための確率的クロネッカーグラフジェネレーターを使用した動的マルチグラフの生成と、特徴生成のための表形式生成敵ネットワークが含まれます。
さらに、グラフアライメントにXGBoost(Extreme Gradient Boosting)モデルを使用し、生成されたグラフ構造に特徴の正確なオーバーレイを確保します。
合成グラフの精度と多様性の両方を評価する新しいメトリックを使用して、モデルを評価します。
私たちの結果は、同様の効率を維持しながら、以前の大規模なグラフ生成方法にわたって精度の改善を示しています。
また、合成グラフデータセットの作成における精度と多様性のトレードオフも調査します。これは、関連する作品では広範囲にカバーされていないトピックです。
私たちの貢献には、大規模な現実世界のNetflowデータセットの合成と評価、および合成グラフ生成モデルを評価するための新しいメトリックの定義が含まれます。

要約(オリジナル)

Obtaining real-world network datasets is often challenging because of privacy, security, and computational constraints. In the absence of such datasets, graph generative models become essential tools for creating synthetic datasets. In this paper, we introduce a novel machine learning model for generating high-fidelity synthetic network flow datasets that are representative of real-world networks. Our approach involves the generation of dynamic multigraphs using a stochastic Kronecker graph generator for structure generation and a tabular generative adversarial network for feature generation. We further employ an XGBoost (eXtreme Gradient Boosting) model for graph alignment, ensuring accurate overlay of features onto the generated graph structure. We evaluate our model using new metrics that assess both the accuracy and diversity of the synthetic graphs. Our results demonstrate improvements in accuracy over previous large-scale graph generation methods while maintaining similar efficiency. We also explore the trade-off between accuracy and diversity in synthetic graph dataset creation, a topic not extensively covered in related works. Our contributions include the synthesis and evaluation of large real-world netflow datasets and the definition of new metrics for evaluating synthetic graph generative models.

arxiv情報

著者 Arya Grayeli,Vipin Swarup,Steven E. Noel
発行日 2025-05-12 17:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI パーマリンク