Multi-Agent Reinforcement Learning for Maritime Operational Technology Cyber Security

要約

このペーパーでは、自律型サイバー防御が産業用制御システムに適用される可能性を実証し、この問題領域へのマルチエージェント強化学習 (MARL) の適用をさらに検討するためのベースライン環境を提供します。
汎用統合プラットフォーム管理システム (IPMS) のシミュレーション環境 IPMSRL を紹介し、汎用海事ベース IPMS 運用技術 (OT) での自律的なサイバー防御意思決定のための MARL の使用を検討します。
OT のサイバー防御アクションは、エンタープライズ IT のサイバー防御アクションほど成熟していません。
これは、レガシー システムの使用、設計時のエンジニアリングの前提条件、および本格的な最新のセキュリティ制御の欠如に起因する OT インフラストラクチャの比較的脆弱な性質によるものです。
サイバー攻撃は継続的に巧妙化しており、従来の IT 中心のサイバー防御ソリューションには限界があるため、サイバー環境全体では対処すべき多くの障害が存在します。
従来の IT 管理が OT インフラストラクチャに導入されることはほとんどなく、導入されている場合でも、一部の脅威には完全には対処できません。
私たちの実験では、Multi Agent Proximal Policy Optimization (MAPPO) の共有批評実装が Independent Proximal Policy Optimization (IPPO) よりも優れたパフォーマンスを示しました。
MAPPO は 80 万タイムステップ後に最適なポリシー (エピソード結果平均 1) に達しましたが、IPPO は 100 万タイムステップ後にエピソード結果平均 0.966 にしか到達できませんでした。
ハイパーパラメータの調整により、トレーニングのパフォーマンスが大幅に向上しました。
100 万のタイムステップにわたって、調整されたハイパーパラメータは最適なポリシーに到達しましたが、デフォルトのハイパーパラメータは散発的にしか勝つことができず、ほとんどのシミュレーションは引き分けという結果になりました。
私たちは現実世界の制約、攻撃検出アラートの成功をテストしたところ、アラートの成功確率が 0.75 または 0.9 に低下しても、MARL 防御側はそれぞれエピソードの 97.5% または 99.5% 以上で勝利することができることがわかりました。

要約(オリジナル)

This paper demonstrates the potential for autonomous cyber defence to be applied on industrial control systems and provides a baseline environment to further explore Multi-Agent Reinforcement Learning’s (MARL) application to this problem domain. It introduces a simulation environment, IPMSRL, of a generic Integrated Platform Management System (IPMS) and explores the use of MARL for autonomous cyber defence decision-making on generic maritime based IPMS Operational Technology (OT). OT cyber defensive actions are less mature than they are for Enterprise IT. This is due to the relatively brittle nature of OT infrastructure originating from the use of legacy systems, design-time engineering assumptions, and lack of full-scale modern security controls. There are many obstacles to be tackled across the cyber landscape due to continually increasing cyber-attack sophistication and the limitations of traditional IT-centric cyber defence solutions. Traditional IT controls are rarely deployed on OT infrastructure, and where they are, some threats aren’t fully addressed. In our experiments, a shared critic implementation of Multi Agent Proximal Policy Optimisation (MAPPO) outperformed Independent Proximal Policy Optimisation (IPPO). MAPPO reached an optimal policy (episode outcome mean of 1) after 800K timesteps, whereas IPPO was only able to reach an episode outcome mean of 0.966 after one million timesteps. Hyperparameter tuning greatly improved training performance. Across one million timesteps the tuned hyperparameters reached an optimal policy whereas the default hyperparameters only managed to win sporadically, with most simulations resulting in a draw. We tested a real-world constraint, attack detection alert success, and found that when alert success probability is reduced to 0.75 or 0.9, the MARL defenders were still able to win in over 97.5% or 99.5% of episodes, respectively.

arxiv情報

著者 Alec Wilson,Ryan Menzies,Neela Morarji,David Foster,Marco Casassa Mont,Esin Turkbeyler,Lisa Gralewski
発行日 2024-01-18 17:22:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.MA パーマリンク