要約
自律型サイバー防御の重要な課題は、防御エージェントが多様なネットワーク トポロジや構成にわたって汎用化できる能力を確保することです。
この機能は、デバイスが頻繁に参加したり離脱したりする企業ネットワークなど、動的に変化する環境にエージェントを導入した場合に効果を維持するために必要です。
深層強化学習への標準的なアプローチでは、固定入力の多層パーセプトロン (MLP) を使用してポリシーがパラメータ化され、固定サイズの観測空間とアクション空間が想定されます。
自律型サイバー防御では、ノードの数が観察空間と行動空間の自然なサイズに影響を与えるため、訓練されたネットワーク トポロジとは異なるネットワーク トポロジを持つ環境に一般化するエージェントを開発することが困難になります。
この制限を克服するために、エンティティベースの強化学習を使用して自律ネットワーク防御の問題を再構成します。エージェントの観察およびアクション空間は、個別のエンティティのコレクションに分解されます。
このフレームワークにより、構成の一般化に特化したポリシーのパラメータ化の使用が可能になります。
私たちは、Yawning Titan サイバー セキュリティ シミュレーション環境で Transformer ベースのポリシーをトレーニングし、さまざまなネットワーク トポロジにわたってその一般化機能をテストします。
このアプローチは、さまざまなトポロジの固定サイズのネットワーク全体でトレーニングする場合には MLP ベースのポリシーよりも大幅に優れたパフォーマンスを示し、単一ネットワーク上でトレーニングする場合にはパフォーマンスに匹敵することを示します。
また、トレーニングで見られたものとは異なるサイズのネットワークに対するゼロショット一般化の可能性も示します。
これらの発見は、実世界のネットワーク環境の変化に対応できるより一般化可能なポリシーを提供することで、エンティティベースの強化学習が自律的なサイバー防御の分野を前進させる可能性を浮き彫りにしています。
要約(オリジナル)
A significant challenge for autonomous cyber defence is ensuring a defensive agent’s ability to generalise across diverse network topologies and configurations. This capability is necessary for agents to remain effective when deployed in dynamically changing environments, such as an enterprise network where devices may frequently join and leave. Standard approaches to deep reinforcement learning, where policies are parameterised using a fixed-input multi-layer perceptron (MLP) expect fixed-size observation and action spaces. In autonomous cyber defence, this makes it hard to develop agents that generalise to environments with network topologies different from those trained on, as the number of nodes affects the natural size of the observation and action spaces. To overcome this limitation, we reframe the problem of autonomous network defence using entity-based reinforcement learning, where the observation and action space of an agent are decomposed into a collection of discrete entities. This framework enables the use of policy parameterisations specialised in compositional generalisation. We train a Transformer-based policy on the Yawning Titan cyber-security simulation environment and test its generalisation capabilities across various network topologies. We demonstrate that this approach significantly outperforms an MLP-based policy when training across fixed-size networks of varying topologies, and matches performance when training on a single network. We also demonstrate the potential for zero-shot generalisation to networks of a different size to those seen in training. These findings highlight the potential for entity-based reinforcement learning to advance the field of autonomous cyber defence by providing more generalisable policies capable of handling variations in real-world network environments.
arxiv情報
著者 | Isaac Symes Thompson,Alberto Caron,Chris Hicks,Vasilios Mavroudis |
発行日 | 2024-12-06 18:52:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google