要約
バイナリ マルウェアの要約は、実行可能ファイルから人間が判読できるマルウェアの動作の説明を自動的に生成し、マルウェアのクラッキングや検出などのタスクを容易にすることを目的としています。
大規模言語モデル (LLM) に基づいたこれまでの手法は、大きな有望性を示しています。
しかし、依然として、主に不明瞭な疑似コード構造とマルウェア トレーニングの概要の欠如により、使いやすさの悪さ、不正確な説明、不完全な概要などの重大な問題に直面しています。
さらに、バイナリ マルウェア内の豊富な相互作用を伴う関数間の呼び出し関係は、ほとんど解明されていないままです。
この目的を達成するために、悪意のあるソース コードと良性の疑似コードを探索することでバイナリ マルウェアの記述を繰り返し生成できる新しいコード要約フレームワークである MALSIGHT を提案します。
具体的には、LLM を使用して最初のマルウェアの概要である MalS と MalP を構築し、このデータセットを人力で手動で調整します。
トレーニング段階では、提案した MalT5 (新しい LLM ベースのコード モデル) を、MalS データセットと良性の疑似コード データセットに基づいて調整します。
次に、テスト段階で、擬似コード関数を繰り返し MalT5 にフィードして、概要を取得します。
このような手順により、疑似コード構造の理解を容易にし、関数間の複雑な相互作用を把握できるため、要約の使いやすさ、正確さ、完全性が向上します。
さらに、要約の品質を測定するための新しい評価ベンチマーク BLEURT-sum を提案します。
3 つのデータセットでの実験により、提案された MALSIGHT の有効性が示されています。
特に、私たちが提案した MalT5 は、パラメータがわずか 0.77B であり、はるかに大規模な ChatGPT3.5 に匹敵するパフォーマンスを提供します。
要約(オリジナル)
Binary malware summarization aims to automatically generate human-readable descriptions of malware behaviors from executable files, facilitating tasks like malware cracking and detection. Previous methods based on Large Language Models (LLMs) have shown great promise. However, they still face significant issues, including poor usability, inaccurate explanations, and incomplete summaries, primarily due to the obscure pseudocode structure and the lack of malware training summaries. Further, calling relationships between functions, which involve the rich interactions within a binary malware, remain largely underexplored. To this end, we propose MALSIGHT, a novel code summarization framework that can iteratively generate descriptions of binary malware by exploring malicious source code and benign pseudocode. Specifically, we construct the first malware summaries, MalS and MalP, using an LLM and manually refine this dataset with human effort. At the training stage, we tune our proposed MalT5, a novel LLM-based code model, on the MalS dataset and a benign pseudocode dataset. Then, at the test stage, we iteratively feed the pseudocode functions into MalT5 to obtain the summary. Such a procedure facilitates the understanding of pseudocode structure and captures the intricate interactions between functions, thereby benefiting the usability, accuracy, and completeness of summaries. Additionally, we propose a novel evaluation benchmark, BLEURT-sum, to measure the quality of summaries. Experiments on three datasets show the effectiveness of the proposed MALSIGHT. Notably, our proposed MalT5, with only 0.77B parameters, delivers comparable performance to much larger ChatGPT3.5.
arxiv情報
著者 | Haolang Lu,Hongrui Peng,Guoshun Nan,Jiaoyang Cui,Cheng Wang,Weifei Jin |
発行日 | 2024-06-26 14:21:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google