要約
NetFlow データは、多くのネットワーク・アナリストや研究者に使用されている一般的なネットワーク・ログ・フォーマットである。ディープパケットインスペクションよりもNetFlowを使用する利点は、収集と処理が簡単で、プライバシーへの侵入が少ないことである。多くの研究が、NetFlow データを使用してネットワーク攻撃を検出するために機械学習を使用している。これらの機械学習パイプラインの最初のステップは、機械学習アルゴリズムにデータを渡す前にデータを前処理することである。NetFlowデータを前処理する多くのアプローチが存在するが、これらは単に既存の手法をデータに適用するだけであり、ネットワークデータ特有の特性は考慮されていない。我々は、NetFlowやソフトウェアログのようなソフトウェアシステムに由来するデータでは、特徴値の頻度やコンテキストの類似性が、値自体の類似性よりも重要であると主張する。この研究では、データを処理する際に、特徴値の頻度とコンテキストを直接考慮するエンコーディングアルゴリズムを提案する。このエンコーディングを用いることで、様々なタイプのネットワーク挙動をクラスタリングすることができ、ネットワーク内の異常を検出するプロセスを支援することができる。我々のエンコーディングアルゴリズムでエンコードされたデータを用いて、異常検出のためのいくつかの機械学習モデルを訓練する。Kubernetesクラスタに対するネットワーク攻撃のために作成した新しいデータセットと、2つのよく知られた公開NetFlowデータセットで、我々のエンコーディングの有効性を評価する。機械学習モデルが我々のエンコーディングを異常検知に使用することで恩恵を受けることを実証的に示す。
要約(オリジナル)
NetFlow data is a popular network log format used by many network analysts and researchers. The advantages of using NetFlow over deep packet inspection are that it is easier to collect and process, and it is less privacy intrusive. Many works have used machine learning to detect network attacks using NetFlow data. The first step for these machine learning pipelines is to pre-process the data before it is given to the machine learning algorithm. Many approaches exist to pre-process NetFlow data; however, these simply apply existing methods to the data, not considering the specific properties of network data. We argue that for data originating from software systems, such as NetFlow or software logs, similarities in frequency and contexts of feature values are more important than similarities in the value itself. In this work, we propose an encoding algorithm that directly takes the frequency and the context of the feature values into account when the data is being processed. Different types of network behaviours can be clustered using this encoding, thus aiding the process of detecting anomalies within the network. We train several machine learning models for anomaly detection using the data that has been encoded with our encoding algorithm. We evaluate the effectiveness of our encoding on a new dataset that we created for network attacks on Kubernetes clusters and two well-known public NetFlow datasets. We empirically demonstrate that the machine learning models benefit from using our encoding for anomaly detection.
arxiv情報
著者 | Clinton Cao,Annibale Panichella,Sicco Verwer,Agathe Blaise,Filippo Rebecchi |
発行日 | 2023-08-04 09:03:40+00:00 |
arxivサイト | arxiv_id(pdf) |