要約
ネットワークセキュリティモデルを改善するには、粗粒の特徴ベクトルから、個々のパケットを含む細かいネットワークセッションデータを再構築する機能が重要です。
ただし、生ネットワークトラフィックの大規模な収集とストレージは、特にまれなサイバー攻撃サンプルをキャプチャするために、大きな課題をもたらします。
これらの課題は、モデルトレーニングと将来の脅威検出のための包括的なデータセットを保持する能力を妨げています。
これに対処するために、ネットワークデータをエンコードおよび再構築するための正式な方法に導かれる機械学習アプローチを提案します。
この方法では、ドメインに基づいたペナルティを備えた自動エンコーダーモデルを採用して、構造化された機能表現からPCAPセッションヘッダーを帰属させます。
実験結果は、制約ベースの損失項を介してドメインの知識を組み込むことで、特にセッションレベルのエンコーディングを備えたカテゴリの特徴について、再構成の精度が大幅に向上することを示しています。
詳細なネットワークセッションの効率的な再構築を可能にすることにより、当社のアプローチにより、プライバシーとストレージ効率を維持しながら、データ効率の高いモデルトレーニングが促進されます。
要約(オリジナル)
The ability to reconstruct fine-grained network session data, including individual packets, from coarse-grained feature vectors is crucial for improving network security models. However, the large-scale collection and storage of raw network traffic pose significant challenges, particularly for capturing rare cyberattack samples. These challenges hinder the ability to retain comprehensive datasets for model training and future threat detection. To address this, we propose a machine learning approach guided by formal methods to encode and reconstruct network data. Our method employs autoencoder models with domain-informed penalties to impute PCAP session headers from structured feature representations. Experimental results demonstrate that incorporating domain knowledge through constraint-based loss terms significantly improves reconstruction accuracy, particularly for categorical features with session-level encodings. By enabling efficient reconstruction of detailed network sessions, our approach facilitates data-efficient model training while preserving privacy and storage efficiency.
arxiv情報
著者 | Mark Cheung,Sridhar Venkatesan |
発行日 | 2025-04-15 14:51:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google