Adversarial Deep Reinforcement Learning for Cyber Security in Software Defined Networks

要約

このペーパーでは、ソフトウェア定義ネットワーク (SDN) における自律型セキュリティのために敵対的学習を DRL に適用することの影響を調査することにより、深層強化学習 (DRL) で自律型攻撃アプローチを活用してより堅牢なエージェントを訓練する効果に焦点を当てています。
Double Deep Q-Networks (DDQN) と Deep Q-Network に対するニューラル エピソード制御 (NEC2DQN または N2D) の 2 つのアルゴリズムが比較されます。
NEC2DQN は 2018 年に提案され、ディープ q ネットワーク (DQN) ファミリのアルゴリズムの新しいメンバーです。
攻撃者は環境を完全に観察でき、学習プロセスを妨害するために状態操作を使用する原因となる攻撃にアクセスできます。
攻撃の実装はホワイトボックス設定の下で行われ、攻撃者は防御者のモデルと経験にアクセスできます。
2つのゲームが行われます。
最初のゲームでは DDQN がディフェンダー、N2D がアタッカーで、2 番目のゲームでは役割が逆転します。
ゲームは 2 回行われます。
1 つ目は、積極的な原因となる攻撃がない場合、2 つ目は、積極的な原因となる攻撃がある場合です。
実行にあたっては、10 回のゲーム実行を 1 セットとして 3 セットのゲーム結果が記録されます。
次に、実際に改善または低下があったかどうかを確認するために、前後の結果が比較されます。
結果は、アルゴリズムに微妙なパラメーターを変更することで、ゲームに勝つことができるため、攻撃者の役割が増大したことを示しています。
原因となる攻撃の導入による敵対的学習の実装により、アルゴリズムが依然としてその強みに応じてネットワークを防御できることが示されました。

要約(オリジナル)

This paper focuses on the impact of leveraging autonomous offensive approaches in Deep Reinforcement Learning (DRL) to train more robust agents by exploring the impact of applying adversarial learning to DRL for autonomous security in Software Defined Networks (SDN). Two algorithms, Double Deep Q-Networks (DDQN) and Neural Episodic Control to Deep Q-Network (NEC2DQN or N2D), are compared. NEC2DQN was proposed in 2018 and is a new member of the deep q-network (DQN) family of algorithms. The attacker has full observability of the environment and access to a causative attack that uses state manipulation in an attempt to poison the learning process. The implementation of the attack is done under a white-box setting, in which the attacker has access to the defender’s model and experiences. Two games are played; in the first game, DDQN is a defender and N2D is an attacker, and in second game, the roles are reversed. The games are played twice; first, without an active causative attack and secondly, with an active causative attack. For execution, three sets of game results are recorded in which a single set consists of 10 game runs. The before and after results are then compared in order to see if there was actually an improvement or degradation. The results show that with minute parameter changes made to the algorithms, there was growth in the attacker’s role, since it is able to win games. Implementation of the adversarial learning by the introduction of the causative attack showed the algorithms are still able to defend the network according to their strengths.

arxiv情報

著者 Luke Borchjes,Clement Nyirenda,Louise Leenen
発行日 2023-08-09 12:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク