要約
モノのインターネット(IoT)技術の膨大な増加と進化し続ける攻撃ベクトルにより、サイバーセキュリティリスクは飛躍的に高まっている。分散型IoTシステムにAIベースの侵入検知システム(IDS)を実装する一般的なアプローチは、集中型である。しかし、このアプローチはデータのプライバシーを侵害し、IDSのスケーラビリティを禁止する可能性がある。したがって、IoTエコシステムにおける侵入検知ソリューションは、分散型の方向に進む必要がある。Federated Learning(FL)は、データの機密性と局所性を保持しながら協調学習を実行する能力により、近年大きな関心を集めています。とはいえ、ほとんどのIoTシステム向けのFLベースのIDSは、非現実的なデータ分散条件の下で設計されている。そのため、実世界を代表する実験を設計し、FLベースのIDSの性能を評価する。実験では、現実的なIoTネットワーク・トラフィック・データセットであるTON-IoTを使用し、各IPアドレスを単一のFLクライアントと関連付けます。さらに、データの不均一性の影響を軽減するために、事前トレーニングを検討し、さまざまな集約方法を調査します。最後に、本アプローチと集中型ソリューションとのベンチマークを実施する。比較の結果、データの異質性は、分散方式で訓練した場合、モデルの性能にかなりのマイナスの影響を与えることがわかった。しかし、事前に訓練された初期グローバルFLモデルの場合、ランダムに開始されたグローバルモデルと比較して20%以上の性能向上(F1スコア)を示す。
要約(オリジナル)
The vast increase of Internet of Things (IoT) technologies and the ever-evolving attack vectors have increased cyber-security risks dramatically. A common approach to implementing AI-based Intrusion Detection systems (IDSs) in distributed IoT systems is in a centralised manner. However, this approach may violate data privacy and prohibit IDS scalability. Therefore, intrusion detection solutions in IoT ecosystems need to move towards a decentralised direction. Federated Learning (FL) has attracted significant interest in recent years due to its ability to perform collaborative learning while preserving data confidentiality and locality. Nevertheless, most FL-based IDS for IoT systems are designed under unrealistic data distribution conditions. To that end, we design an experiment representative of the real world and evaluate the performance of an FL-based IDS. For our experiments, we rely on TON-IoT, a realistic IoT network traffic dataset, associating each IP address with a single FL client. Additionally, we explore pre-training and investigate various aggregation methods to mitigate the impact of data heterogeneity. Lastly, we benchmark our approach against a centralised solution. The comparison shows that the heterogeneous nature of the data has a considerable negative impact on the model’s performance when trained in a distributed manner. However, in the case of a pre-trained initial global FL model, we demonstrate a performance improvement of over 20% (F1-score) compared to a randomly initiated global model.
arxiv情報
著者 | Othmane Belarbi,Theodoros Spyridopoulos,Eirini Anthi,Ioannis Mavromatis,Pietro Carnelli,Aftab Khan |
発行日 | 2023-08-04 16:44:56+00:00 |
arxivサイト | arxiv_id(pdf) |