Can LLMs Obfuscate Code? A Systematic Analysis of Large Language Models into Assembly Code Obfuscation

要約

マルウェアの作成者は、マルウェアの検出を困難にするためにコードの難読化を採用することがよくあります。
難読化されたコードを生成するための既存のツールでは、元のソース コード (C++ や Java など) へのアクセスが必要になることが多く、新しい難読化の追加は簡単ではなく、多大な労力を要するプロセスです。
この研究では、次の質問をします。大規模言語モデル (LLM) は、難読化された新しいアセンブリ コードを生成する可能性がありますか?
その場合、ウイルス対策エンジンにリスクが生じ、攻撃者が新しい難読化パターンを作成する柔軟性が高まる可能性があります。
私たちは、MetamorphASM Dataset (MAD) と 3 つのコード難読化技術 (デッド コード、レジスタ置換、制御フロー変更) を組み合わせた MetamorphASM ベンチマークを開発することで、これに肯定的に答えます。
MetamorphASM は、328,200 の難読化されたアセンブリ コード サンプルを含む MAD を使用して、難読化されたコードを生成および分析する LLM の能力を体系的に評価します。
私たちはこのデータセットをリリースし、難読化されたアセンブリ コードを生成する際のさまざまな LLM (GPT-3.5/4、GPT-4o-mini、Starcoder、CodeGemma、CodeLlama、CodeT5、LLaMA 3.1 など) の成功率を分析します。
評価は、正確性を確保し、研究者がこのリスクに対する修正策を研究および開発するための基盤を提供するために、確立された情報理論的指標と人による手動レビューを使用して実行されました。
ソース コードは、GitHub リンク https://github.com/mohammadi-ali/MetamorphASM にあります。

要約(オリジナル)

Malware authors often employ code obfuscations to make their malware harder to detect. Existing tools for generating obfuscated code often require access to the original source code (e.g., C++ or Java), and adding new obfuscations is a non-trivial, labor-intensive process. In this study, we ask the following question: Can Large Language Models (LLMs) potentially generate a new obfuscated assembly code? If so, this poses a risk to anti-virus engines and potentially increases the flexibility of attackers to create new obfuscation patterns. We answer this in the affirmative by developing the MetamorphASM benchmark comprising MetamorphASM Dataset (MAD) along with three code obfuscation techniques: dead code, register substitution, and control flow change. The MetamorphASM systematically evaluates the ability of LLMs to generate and analyze obfuscated code using MAD, which contains 328,200 obfuscated assembly code samples. We release this dataset and analyze the success rate of various LLMs (e.g., GPT-3.5/4, GPT-4o-mini, Starcoder, CodeGemma, CodeLlama, CodeT5, and LLaMA 3.1) in generating obfuscated assembly code. The evaluation was performed using established information-theoretic metrics and manual human review to ensure correctness and provide the foundation for researchers to study and develop remediations to this risk. The source code can be found at the following GitHub link: https://github.com/mohammadi-ali/MetamorphASM.

arxiv情報

著者 Seyedreza Mohseni,Seyedali Mohammadi,Deepa Tilwani,Yash Saxena,Gerald Ndawula,Sriram Vema,Edward Raff,Manas Gaur
発行日 2024-12-24 17:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク