Deep Reinforcement Learning for Autonomous Cyber Operations: A Survey

要約

近年、サイバー攻撃の数が急速に増加しているため、悪意のある攻撃者からネットワークを防御するための原則に基づいた方法の必要性が高まっています。
深層強化学習 (DRL) は、これらの攻撃を軽減するための有望なアプローチとして浮上しています。
ただし、DRL はサイバー防御に大きな可能性を示していますが、DRL を自律型サイバー運用 (ACO) に大規模に適用するには、多くの課題を克服する必要があります。
学習者が非常に高次元の状態空間、大規模な多離散アクション空間、敵対的学習に直面する環境には、原則的な方法が必要です。
最近の研究では、これらの問題を個別に解決することに成功したと報告されています。
また、リアルタイム ストラテジー ゲームの 3 つすべてを解決するために、エンジニアリング上の素晴らしい努力も行われてきました。
ただし、DRL を ACO 問題全体に適用することは、依然として未解決の課題です。
ここでは、関連する DRL 文献を調査し、理想的な ACO-DRL エージェントを概念化します。
i.) ACO 問題を定義するドメイン プロパティの概要。
ii.) DRL アプローチのベンチマークに使用される現在の ACO 環境の包括的な比較。
iii.) 学習者が次元の呪いに直面する領域に DRL を拡張するための最先端のアプローチの概要。
iv.) ACO の観点から見た、敵対的環境内でエージェントの悪用可能性を制限する現在の方法の調査と批判。
最後に、ACO に取り組む研究者や実践者の将来の方向性を動機付けるきっかけとなることを期待する、自由研究の質問で締めくくります。

要約(オリジナル)

The rapid increase in the number of cyber-attacks in recent years raises the need for principled methods for defending networks against malicious actors. Deep reinforcement learning (DRL) has emerged as a promising approach for mitigating these attacks. However, while DRL has shown much potential for cyber defence, numerous challenges must be overcome before DRL can be applied to autonomous cyber operations (ACO) at scale. Principled methods are required for environments that confront learners with very high-dimensional state spaces, large multi-discrete action spaces, and adversarial learning. Recent works have reported success in solving these problems individually. There have also been impressive engineering efforts towards solving all three for real-time strategy games. However, applying DRL to the full ACO problem remains an open challenge. Here, we survey the relevant DRL literature and conceptualize an idealised ACO-DRL agent. We provide: i.) A summary of the domain properties that define the ACO problem; ii.) A comprehensive comparison of current ACO environments used for benchmarking DRL approaches; iii.) An overview of state-of-the-art approaches for scaling DRL to domains that confront learners with the curse of dimensionality, and; iv.) A survey and critique of current methods for limiting the exploitability of agents within adversarial settings from the perspective of ACO. We conclude with open research questions that we hope will motivate future directions for researchers and practitioners working on ACO.

arxiv情報

著者 Gregory Palmer,Chris Parry,Daniel J. B. Harrold,Chris Willis
発行日 2024-09-16 15:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク