Hierarchical Multi-agent Reinforcement Learning for Cyber Network Defense

要約

マルチエージェント強化学習 (MARL) の最近の進歩により、現実世界の複雑なタスクを解決する機会が生まれました。
サイバーセキュリティは注目に値する応用分野であり、高度な敵対者からネットワークを防御することは依然として困難なタスクであり、通常はセキュリティ オペレータのチームが実行します。
この研究では、大規模なポリシー空間、部分的な可観測性、ステルスで欺瞞的な敵対的戦略などの課題に対処する自律的なサイバーネットワーク防御を構築するための新しい MARL 戦略を探ります。
効率的で一般化された学習を促進するために、サイバー防御タスクをネットワーク調査やホスト回復などの特定のサブタスクに分解する階層型近接ポリシー最適化 (PPO) アーキテクチャを提案します。
私たちのアプローチには、ドメインの専門知識で強化された PPO を使用して、サブタスクごとにサブポリシーをトレーニングすることが含まれます。
これらのサブポリシーは、選択を調整して複雑なネットワーク防御タスクを解決するマスター防御ポリシーによって利用されます。
さらに、敵対的な動作の変化やネットワーク設定の変更を防ぐために、サブポリシーを微調整して最小限のコストで転送できます。
当社では、サイバー防御のための最先端の MARL 環境である CybORG Cage 4 を使用して広範な実験を行っています。
さまざまな攻撃者にわたる複数のベースラインとの比較では、当社の階層型学習アプローチが、収束速度、一時的なリターン、およびネットワーク上のクリーンなマシンの割合、精度、リカバリ時の誤検知など、サイバーセキュリティに関連するいくつかの解釈可能な指標の点で最高のパフォーマンスを達成していることが示されています。

要約(オリジナル)

Recent advances in multi-agent reinforcement learning (MARL) have created opportunities to solve complex real-world tasks. Cybersecurity is a notable application area, where defending networks against sophisticated adversaries remains a challenging task typically performed by teams of security operators. In this work, we explore novel MARL strategies for building autonomous cyber network defenses that address challenges such as large policy spaces, partial observability, and stealthy, deceptive adversarial strategies. To facilitate efficient and generalized learning, we propose a hierarchical Proximal Policy Optimization (PPO) architecture that decomposes the cyber defense task into specific sub-tasks like network investigation and host recovery. Our approach involves training sub-policies for each sub-task using PPO enhanced with domain expertise. These sub-policies are then leveraged by a master defense policy that coordinates their selection to solve complex network defense tasks. Furthermore, the sub-policies can be fine-tuned and transferred with minimal cost to defend against shifts in adversarial behavior or changes in network settings. We conduct extensive experiments using CybORG Cage 4, the state-of-the-art MARL environment for cyber defense. Comparisons with multiple baselines across different adversaries show that our hierarchical learning approach achieves top performance in terms of convergence speed, episodic return, and several interpretable metrics relevant to cybersecurity, including the fraction of clean machines on the network, precision, and false positives on recoveries.

arxiv情報

著者 Aditya Vikram Singh,Ethan Rathbun,Emma Graham,Lisa Oakley,Simona Boboila,Alina Oprea,Peter Chin
発行日 2024-10-24 15:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.MA パーマリンク