Command-line Obfuscation Detection using Small Language Models

要約

検出を避けるために、攻撃者はコマンドラインの難読化を使用することがよくあります。
コマンドライン難読化には数多くの手法があり、それらはすべて、元の機能に影響を与えることなくコマンドライン構文を変更するように設計されています。
この変動性により、ほとんどのセキュリティ ソリューションでは、たとえ 1 つのパターンであっても、シグネチャの徹底的な列挙を作成する必要があります。
シグネチャの使用とは対照的に、任意の実行ログ ソースに適用できるカスタム トレーニング済みの小さなトランスフォーマー言語モデルを活用する、スケーラブルな NLP ベースの検出方法を実装しました。
現実世界のテレメトリに基づく評価は、大学や企業から医療や金融に至るまでの多様な環境からの大量のテレメトリに対しても、私たちのアプローチが高精度の検出をもたらすことを示しています。
実際の価値は、私たちのモデルによって検出された現実世界のサンプルのケーススタディで実証されています。
難読化を使用することが知られている既知のマルウェアのシグネチャに対するモデルの優位性を示し、モデルによって検出されたこれまでに見たことのない難読化されたサンプルを紹介します。

要約(オリジナル)

To avoid detection, adversaries often use command-line obfuscation. There are numerous techniques of the command-line obfuscation, all designed to alter the command-line syntax without affecting its original functionality. This variability forces most security solutions to create an exhaustive enumeration of signatures for even a single pattern. In contrast to using signatures, we have implemented a scalable NLP-based detection method that leverages a custom-trained, small transformer language model that can be applied to any source of execution logs. The evaluation on top of real-world telemetry demonstrates that our approach yields high-precision detections even on high-volume telemetry from a diverse set of environments spanning from universities and businesses to healthcare or finance. The practical value is demonstrated in a case study of real-world samples detected by our model. We show the model’s superiority to signatures on established malware known to employ obfuscation and showcase previously unseen obfuscated samples detected by our model.

arxiv情報

著者 Vojtech Outrata,Michael Adam Polak,Martin Kopp
発行日 2024-08-05 17:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク