The importance of the clustering model to detect new types of intrusion in data traffic

要約

現在のデジタル時代では、さまざまなサイバーアクティビティによって生成されたデータの量が膨大になり、絶えず増加しています。
データには、サイバーセキュリティ対策を改善するために利用できる貴重な洞察が含まれている場合があります。
ただし、このデータの多くは分類されていない定性的であり、従来の分析方法に大きな課題をもたらします。
クラスタリングは、同様のデータポイントをグループ化することにより、データの隠されたパターンと構造の識別を促進するため、脅威を特定して対処するのが簡単になります。
クラスタリングは、データセットをいくつかのカテゴリに分割するために類似性計算を使用するデータマイニング(DM)アプローチとして定義できます。
階層的、密度ベース、およびパーティション化クラスタリングアルゴリズムが典型的です。
提示された作業では、k-meansアルゴリズムを使用します。これは、人気のあるクラスタリング手法です。
K-Meansアルゴリズムを利用して、2つの異なるタイプのデータを使用しました。まず、K-Meansアルゴリズムとの集約を完了した後、XG-Boostアルゴリズムを使用してデータを収集しました。
Kali Linux環境、CICFLOWMETERトラフィック、および多様で簡単な攻撃を使用したPuttyソフトウェアツールを使用して、データが収集されました。
この概念は、既知の攻撃とは異なる新しい攻撃タイプを特定し、それらが示す特性に基づいてそれらをラベル付けするのに役立ちます。サイバー脅威に関する動的な性質は、新しい攻撃タイプがしばしば出現し、ラベル付きデータがまだ存在しない可能性があることを意味します。
モデルは攻撃をカウントし、それぞれに番号を割り当てました。
次に、呼び出されたKaggleリポジトリ内のReady Dataの同じ作業を試みました(Internet of Things Networkでの侵入検出)、クラスタリングモデルはうまく機能し、結果セクションに示すように攻撃の数を正しく検出しました。

要約(オリジナル)

In the current digital age, the volume of data generated by various cyber activities has become enormous and is constantly increasing. The data may contain valuable insights that can be harnessed to improve cyber security measures. However, much of this data is unclassified and qualitative, which poses significant challenges to traditional analysis methods. Clustering facilitates the identification of hidden patterns and structures in data through grouping similar data points, which makes it simpler to identify and address threats. Clustering can be defined as a data mining (DM) approach, which uses similarity calculations for dividing a data set into several categories. Hierarchical, density-based, along with partitioning clustering algorithms are typical. The presented work use K-means algorithm, which is a popular clustering technique. Utilizing K-means algorithm, we worked with two different types of data: first, we gathered data with the use of XG-boost algorithm following completing the aggregation with K-means algorithm. Data was gathered utilizing Kali Linux environment, cicflowmeter traffic, and Putty Software tools with the use of diverse and simple attacks. The concept could assist in identifying new attack types, which are distinct from the known attacks, and labeling them based on the characteristics they will exhibit, as the dynamic nature regarding cyber threats means that new attack types often emerge, for which labeled data might not yet exist. The model counted the attacks and assigned numbers to each one of them. Secondly, We tried the same work on the ready data inside the Kaggle repository called (Intrusion Detection in Internet of Things Network), and the clustering model worked well and detected the number of attacks correctly as shown in the results section.

arxiv情報

著者 Noor Saud Abd,Noor Walid Khalid,Basim Hussein Ali
発行日 2025-03-26 14:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク