An Attentive Graph Agent for Topology-Adaptive Cyber Defence

要約

サイバー脅威がますます巧妙化する中、強化学習は、インテリジェントで自己改善型の防御システムを構築するための有望な技術として浮上しています。
しかし、既存の自律型防御エージェントのほとんどは、サイバー攻撃を受けるコンピュータ ネットワークに固有のグラフ構造を見落としており、重要な情報を見逃している可能性があります。
このギャップに対処するために、現実的で解釈可能な低レベルの機能を利用して、観測可能なネットワーク状態を有向グラフとしてエンコードする Cyber​​ Operations Research Gym (CybORG) 環境のカスタム バージョンを開発しました。
%、開いているポートの数や予期せず検出された接続など。
グラフ アテンション ネットワーク (GAT) アーキテクチャを活用してノード、エッジ、グローバルの特徴を処理し、その出力を強化学習のポリシー勾配法と互換性があるように変更します。
GAT ポリシーには、単純化された平坦化された状態の観察に基づく標準的なアプローチに比べて、いくつかの利点があります。
実行時にホスト間の動的接続が発生したときに発生するネットワーク トポロジの変更を処理できます。
ポリシーは、トレーニング中に確認されたネットワークとはサイズが異なるネットワークに展開でき、代替アプローチではアクセスできない程度の一般化が可能になります。
さらに、グラフ ニューラル ネットワーク ポリシーの出力は、具体的なネットワーク プロパティの観点から説明可能であり、防御アクションの解釈可能性が向上します。
低レベルのグラフ観察が、変化するトポロジに適応できる GAT 防御ポリシーをトレーニングするのに十分な意味があることを検証します。
同じサブネットワーク構造を持つさまざまなサイズのネットワークに展開された場合に、トレーニングされたポリシーがどのように機能するかを評価し、ネットワーク構成ごとに特別にトレーニングされたポリシーと比較します。
私たちの研究は、現実世界のネットワーク セキュリティの課題によりよく適応できる堅牢なサイバー防御システムの開発に貢献します。

要約(オリジナル)

As cyber threats grow increasingly sophisticated, reinforcement learning is emerging as a promising technique to create intelligent, self-improving defensive systems. However, most existing autonomous defensive agents have overlooked the inherent graph structure of computer networks subject to cyber attacks, potentially missing critical information. To address this gap, we developed a custom version of the Cyber Operations Research Gym (CybORG) environment that encodes the observable network state as a directed graph, utilizing realistic and interpretable low-level features. %, like number of open ports and unexpected detected connections. We leverage a Graph Attention Network (GAT) architecture to process node, edge, and global features, and modify its output to be compatible with policy gradient methods in reinforcement learning. GAT policies offer several advantages over standard approaches based on simplistic flattened state observations. They can handle the changes in network topology that occur at runtime when dynamic connections between hosts appear. Policies can be deployed to networks that differ in size to the ones seen during training, enabling a degree of generalisation inaccessible with alternative approaches. Furthermore, the graph neural network policies outputs are explainable in terms of tangible network properties, providing enhanced interpretability of defensive actions. We verify that our low-level graph observations are meaningful enough to train GAT defensive policies that are able to adapt to changing topologies. We evaluate how our trained policies perform when deployed on networks of varying sizes with the same subnetwork structure, comparing them against policies specifically trained for each network configuration. Our study contributes to the development of robust cyber defence systems that can better adapt to real-world network security challenges.

arxiv情報

著者 Ilya Orson Sandoval,Isaac Symes Thompson,Vasilios Mavroudis,Chris Hicks
発行日 2025-01-24 18:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.NI パーマリンク