要約
人工知能 (AI) 研究は、多くの場合、複雑なデータセット全体で確実に一般化できるモデルの開発を目的としていますが、データが不足している、複雑である、またはアクセスできない分野では依然として困難です。
このペーパーでは、さまざまな複雑さの 3 つの生成モデルを活用して、最も要求の厳しい構造化データセットの 1 つである悪意のあるネットワーク トラフィックを合成する新しいアプローチを紹介します。
私たちのアプローチは数値データをテキストに独自に変換し、データ生成を言語モデリング タスクとして再構成します。これにより、データの正則化が強化されるだけでなく、一般化と合成データの品質も大幅に向上します。
広範な統計分析により、私たちの方法が忠実度の高い合成データの生成において最先端の生成モデルを上回っていることが実証されています。
さらに、合成データのアプリケーション、有効性、評価戦略に関する包括的な調査を実施し、さまざまなドメインにわたる合成データの役割についての貴重な洞察を提供します。
私たちのコードと事前トレーニングされたモデルは Github でオープンにアクセスできるため、私たちの方法論をさらに探索して適用することができます。
索引用語: データ合成、機械学習、トラフィック生成、プライバシー保護データ、生成モデル。
要約(オリジナル)
Artificial Intelligence (AI) research often aims to develop models that can generalize reliably across complex datasets, yet this remains challenging in fields where data is scarce, intricate, or inaccessible. This paper introduces a novel approach that leverages three generative models of varying complexity to synthesize one of the most demanding structured datasets: Malicious Network Traffic. Our approach uniquely transforms numerical data into text, re-framing data generation as a language modeling task, which not only enhances data regularization but also significantly improves generalization and the quality of the synthetic data. Extensive statistical analyses demonstrate that our method surpasses state-of-the-art generative models in producing high-fidelity synthetic data. Additionally, we conduct a comprehensive study on synthetic data applications, effectiveness, and evaluation strategies, offering valuable insights into its role across various domains. Our code and pre-trained models are openly accessible at Github, enabling further exploration and application of our methodology. Index Terms: Data synthesis, machine learning, traffic generation, privacy preserving data, generative models.
arxiv情報
著者 | Mohammad Zbeeb,Mohammad Ghorayeb,Mariam Salman |
発行日 | 2024-11-06 16:50:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google