Learning Near-Optimal Intrusion Responses Against Dynamic Attackers

要約

タイトル:動的な攻撃者に対して近似最適な侵入応答を学習する

要約:
– 攻撃者と防御者の相互作用を最適停止ゲームとしてモデリングし、リンフォースメント学習とセルフプレイを通じて攻撃と防御の戦略が進化するように設計した自動侵入応答について研究しています。
– ゲーム理論的なモデリングにより、動的な攻撃者に対して効果的な防御者の戦略を見つけることができます。つまり、攻撃者は防御者の戦略に応じて自らの戦略を適応させる攻撃者です。
– さらに、最適停止の形式化により、最適な戦略は閾値特性を持つことが証明されます。
– 近似的に最適な防御者の戦略を得るために、閾値架空のプレイ(T-FP)という架空のプレイアルゴリズムを開発し、確率的近似を通じてナッシュ均衡を学習します。
– T-FPは、当社のユースケースに対して最先端のアルゴリズムよりも優れた性能を発揮することを示しました。
– この調査の実験部分には、防御者の戦略が段階的に学習されるシミュレーションシステムと、シミュレーションランを駆動する統計が収集され、学習された戦略が評価されるエミュレーションシステムの2つのシステムが含まれます。
– 私たちは、このアプローチが実用的なITインフラの効果的な防御戦略を生み出すことができると主張しています。

要約(オリジナル)

We study automated intrusion response and formulate the interaction between an attacker and a defender as an optimal stopping game where attack and defense strategies evolve through reinforcement learning and self-play. The game-theoretic modeling enables us to find defender strategies that are effective against a dynamic attacker, i.e. an attacker that adapts its strategy in response to the defender strategy. Further, the optimal stopping formulation allows us to prove that optimal strategies have threshold properties. To obtain near-optimal defender strategies, we develop Threshold Fictitious Self-Play (T-FP), a fictitious self-play algorithm that learns Nash equilibria through stochastic approximation. We show that T-FP outperforms a state-of-the-art algorithm for our use case. The experimental part of this investigation includes two systems: a simulation system where defender strategies are incrementally learned and an emulation system where statistics are collected that drive simulation runs and where learned strategies are evaluated. We argue that this approach can produce effective defender strategies for a practical IT infrastructure.

arxiv情報

著者 Kim Hammar,Rolf Stadler
発行日 2023-04-14 10:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.GT, cs.LG, cs.SY, eess.SY パーマリンク