An Attentive Graph Agent for Topology-Adaptive Cyber Defence

要約

サイバーの脅威がますます洗練されるにつれて、強化学習(RL)は、インテリジェントで適応的なサイバー防衛システムを作成するための有望なテクニックとして浮上しています。
ただし、ほとんどの既存の自律防御エージェントは、サイバー攻撃の対象となるコンピューターネットワークの固有のグラフ構造を見落としており、潜在的に重要な情報が欠落し、適応性を制約しています。
これらの制限を克服するために、Cyber​​ Operations Research Gym(Cyborg)環境のカスタムバージョンを開発し、ネットワーク状態を現実的な低レベル機能を備えた指示グラフとしてエンコードしました。
グラフ注意ネットワーク(GAT)アーキテクチャを使用して、ノード、エッジ、グローバル機能を処理し、RLのポリシーグラデーションメソッドと互換性があるように出力を適応させます。
GATベースのアプローチは、平らな代替案よりも重要な利点を提供します。特定のタイプの予期しない動的ネットワークトポロジの変更に対する回復力を示すポリシー、同じ構造分布内のさまざまなサイズのネットワークへの合理的な一般化、および有形ネットワークプロパティに基づいた解釈可能な防御アクション。
GATの防御ポリシーは、シミュレーション中に予期しない接続が発生した場合でも、低レベルの指示グラフ観測を使用してトレーニングできることを実証します。
さまざまなサイズのネットワーク全体での評価がありますが、一貫したサブネットワーク構造は、ポリシーが各ネットワーク構成のために特別にトレーニングされたポリシーと同等のパフォーマンスを達成することを示しています。
私たちの研究は、現実世界のネットワークセキュリティの課題によりよく適応できる堅牢なサイバー防衛システムの開発に貢献しています。

要約(オリジナル)

As cyber threats grow increasingly sophisticated, reinforcement learning (RL) is emerging as a promising technique to create intelligent and adaptive cyber defense systems. However, most existing autonomous defensive agents have overlooked the inherent graph structure of computer networks subject to cyber attacks, potentially missing critical information and constraining their adaptability. To overcome these limitations, we developed a custom version of the Cyber Operations Research Gym (CybORG) environment, encoding network state as a directed graph with realistic low-level features. We employ a Graph Attention Network (GAT) architecture to process node, edge, and global features, and adapt its output to be compatible with policy gradient methods in RL. Our GAT-based approach offers key advantages over flattened alternatives: policies that demonstrate resilience to certain types of unexpected dynamic network topology changes, reasonable generalisation to networks of varying sizes within the same structural distribution, and interpretable defensive actions grounded in tangible network properties. We demonstrate that GAT defensive policies can be trained using our low-level directed graph observations, even when unexpected connections arise during simulation. Evaluations across networks of different sizes, but consistent subnetwork structure, show our policies achieve comparable performance to policies trained specifically for each network configuration. Our study contributes to the development of robust cyber defence systems that can better adapt to real-world network security challenges.

arxiv情報

著者 Ilya Orson Sandoval,Isaac Symes Thompson,Vasilios Mavroudis,Chris Hicks
発行日 2025-02-18 18:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.NI パーマリンク