要約
特徴生成における不一致は脅威検出の精度と信頼性を妨げる可能性があるため、機械学習モデルのトレーニングには高品質のデータセットが不可欠です。
このため、ネットワーク侵入検知データセットのデータの品質を確保することが重要です。
この重要な要素は、信頼できるツールを使用してデータセット内に存在するフローと特徴を生成することです。
このペーパーでは、フロー エクスポータが侵入検知用の機械学習モデルのパフォーマンスと信頼性に及ぼす影響を調査します。
フローをエクスポートして特徴を抽出するように設計されたツールである HERA を使用して、広く使用されている 2 つのデータセット、UNSW-NB15 と CIC-IDS2017 の生のネットワーク パケットが PCAP ファイルから処理され、これらのデータセットの新しいバージョンが生成されました。
これらは、Random Forest、XGBoost、LightGBM、Explainable Boosting Machine などのいくつかのモデルのパフォーマンスへの影響という点でオリジナルのものと比較されました。
得られた結果は重要なものでした。
HERA バージョンのデータセットでトレーニングされたモデルは、元のデータセットでトレーニングされたモデルよりも一貫して優れており、精度が向上し、一般化が向上していることがわかりました。
これは、無害なトラフィックと悪意のあるトラフィックを区別するモデルの機能におけるフロー生成の重要性を強調しました。
要約(オリジナル)
High-quality datasets are critical for training machine learning models, as inconsistencies in feature generation can hinder the accuracy and reliability of threat detection. For this reason, ensuring the quality of the data in network intrusion detection datasets is important. A key component of this is using reliable tools to generate the flows and features present in the datasets. This paper investigates the impact of flow exporters on the performance and reliability of machine learning models for intrusion detection. Using HERA, a tool designed to export flows and extract features, the raw network packets of two widely used datasets, UNSW-NB15 and CIC-IDS2017, were processed from PCAP files to generate new versions of these datasets. These were compared to the original ones in terms of their influence on the performance of several models, including Random Forest, XGBoost, LightGBM, and Explainable Boosting Machine. The results obtained were significant. Models trained on the HERA version of the datasets consistently outperformed those trained on the original dataset, showing improvements in accuracy and indicating a better generalisation. This highlighted the importance of flow generation in the model’s ability to differentiate between benign and malicious traffic.
arxiv情報
著者 | Daniela Pinto,João Vitorino,Eva Maia,Ivone Amorim,Isabel Praça |
発行日 | 2024-12-18 16:38:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google