Raijū: Reinforcement Learning-Guided Post-Exploitation for Automating Security Assessment of Network Systems

要約

ネットワーク システムのリスクを評価するには、ポストエクスプロイトと呼ばれる、悪用成功後の攻撃者の行動を調査することが重要です。
エクスプロイト後の実装をサポートするさまざまな効率的なツールがありますが、このプロセスを自動化できるアプリケーションはありません。
このプロセスのほとんどの手順は、ペネトレーション テスターまたはペネトレーション テスターと呼ばれる、セキュリティに関する深い知識を持つ専門家によって実行されます。
この目的を達成するために、私たちの研究では、強化学習 (RL) 主導の自動化アプローチである Raij\=u フレームワークを提案します。これは、侵入テスターがネットワーク システムのセキュリティ レベル評価のためのエクスプロイト後のプロセスを迅速に実装するのを支援します。
当社は、Advantage Actor-Critic (A2C) と Proximal Policy Optimization (PPO) という 2 つの RL アルゴリズムを実装して、インテリジェントなアクションを実行できる特殊なエージェントを訓練します。これらのエージェントは、権限昇格、ハッシュダンプの収集、ラテラル ムーブメントの攻撃を自動的に開始する Metasploit モジュールです。
RL を活用することで、これらのエージェントがターゲット システムの脆弱性を悪用できるアクションを自律的に選択して実行できるようにすることを目指しています。
このアプローチにより、ペネトレーション テスト ワークフローの特定の側面を自動化でき、ワークフローがより効率的になり、新たな脅威や脆弱性に対応できるようになります。
実験は、数千のエピソードで訓練されたエージェントを使用して 4 つの実際の環境で実行されます。
エージェントは自動的にアクションを選択して環境に対して攻撃を開始し、指定された 55 未満の攻撃ステップで 84\% 以上の攻撃を成功させます。
さらに、A2C アルゴリズムは、エクスプロイト後の自動化のための適切なアクションの選択において非常に効果的であることが証明されています。

要約(オリジナル)

In order to assess the risks of a network system, it is important to investigate the behaviors of attackers after successful exploitation, which is called post-exploitation. Although there are various efficient tools supporting post-exploitation implementation, no application can automate this process. Most of the steps of this process are completed by experts who have profound knowledge of security, known as penetration testers or pen-testers. To this end, our study proposes the Raij\=u framework, a Reinforcement Learning (RL)-driven automation approach that assists pen-testers in quickly implementing the process of post-exploitation for security-level evaluation in network systems. We implement two RL algorithms, Advantage Actor-Critic (A2C) and Proximal Policy Optimization (PPO), to train specialized agents capable of making intelligent actions, which are Metasploit modules to automatically launch attacks of privileges escalation, gathering hashdump, and lateral movement. By leveraging RL, we aim to empower these agents with the ability to autonomously select and execute actions that can exploit vulnerabilities in target systems. This approach allows us to automate certain aspects of the penetration testing workflow, making it more efficient and responsive to emerging threats and vulnerabilities. The experiments are performed in four real environments with agents trained in thousands of episodes. The agents automatically select actions and launch attacks on the environments and achieve over 84\% of successful attacks with under 55 attack steps given. Moreover, the A2C algorithm has proved extremely effective in the selection of proper actions for automation of post-exploitation.

arxiv情報

著者 Van-Hau Pham,Hien Do Hoang,Phan Thanh Trung,Van Dinh Quoc,Trong-Nghia To,Phan The Duy
発行日 2023-09-27 09:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク