Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells

要約

Living-off-the-land (LOTL) 技術は、正規のツールを悪用して従来の検出方法を回避する悪意のあるコマンドを実行するため、セキュリティ運用に重大な課題をもたらします。
これに対処するために、機械学習を通じてリバース シェルなどの LOTL 攻撃の検出を可能にする、セキュリティ情報およびイベント管理 (SIEM) ソリューションとしてのサイバー防御システムの堅牢な拡張フレームワークを紹介します。
現実世界の脅威インテリジェンスと敵対的トレーニングを活用する当社のフレームワークは、正当なアクティビティの変動性を維持しながら、多様な悪意のあるデータセットを合成し、高い精度と低い誤検知率を保証します。
私たちはエンタープライズ規模のデータセットでの広範な実験を通じてアプローチを検証し、$10^{-5}$ という業界グレードの誤検知率 (FPR) で、拡張されていないベースラインと比較して検出率の 90% 向上を達成しました。
私たちは、保護されていないモデルをうまく回避するブラックボックス データ駆動型攻撃を定義し、それらを軽減する防御を開発して、敵対的に堅牢な ML モデルの亜種を生成します。
倫理的配慮はこの仕事の中心です。
合成データ生成の安全策と、敵対的トレーニングと定期的にトレーニングされたバリアントの両方を含む 4 つの最高パフォーマンスのアーキテクチャにわたる事前トレーニング済みモデルの責任あるリリースについて説明します: https://huggingface.co/dtrizna/quasarnix。
さらに、再現可能な研究とコミュニティのコラボレーションを可能にするために、100 万を超える拡張攻撃亜種を含む悪意のある LOTL データセットを提供しています (https://huggingface.co/datasets/dtrizna/QuasarNix)。
この取り組みは、進化する LOTL 脅威に対する、再現可能でスケーラブルな、本番環境に対応した防御を提供します。

要約(オリジナル)

Living-off-the-land (LOTL) techniques pose a significant challenge to security operations, exploiting legitimate tools to execute malicious commands that evade traditional detection methods. To address this, we present a robust augmentation framework for cyber defense systems as Security Information and Event Management (SIEM) solutions, enabling the detection of LOTL attacks such as reverse shells through machine learning. Leveraging real-world threat intelligence and adversarial training, our framework synthesizes diverse malicious datasets while preserving the variability of legitimate activity, ensuring high accuracy and low false-positive rates. We validate our approach through extensive experiments on enterprise-scale datasets, achieving a 90\% improvement in detection rates over non-augmented baselines at an industry-grade False Positive Rate (FPR) of $10^{-5}$. We define black-box data-driven attacks that successfully evade unprotected models, and develop defenses to mitigate them, producing adversarially robust variants of ML models. Ethical considerations are central to this work; we discuss safeguards for synthetic data generation and the responsible release of pre-trained models across four best performing architectures, including both adversarially and regularly trained variants: https://huggingface.co/dtrizna/quasarnix. Furthermore, we provide a malicious LOTL dataset containing over 1 million augmented attack variants to enable reproducible research and community collaboration: https://huggingface.co/datasets/dtrizna/QuasarNix. This work offers a reproducible, scalable, and production-ready defense against evolving LOTL threats.

arxiv情報

著者 Dmitrijs Trizna,Luca Demetrio,Battista Biggio,Fabio Roli
発行日 2024-12-16 15:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク