UniASM: Binary Code Similarity Detection without Fine-tuning

要約

タイトル:Fine-tuningなしのバイナリコード類似性検出UniASM

要約:

– バイナリコード類似性検出(BCSD)は、脆弱性検索、マルウェア検出、クローン検出、パッチ解析などの様々なバイナリ解析タスクで広く使用されている。
– 最近の研究では、学習ベースのバイナリコード埋め込みモデルが伝統的な特徴ベースの手法よりも優れた結果を出していることが示されている。
– 本論文では、バイナリ関数の表現を学習するための新しいトランスフォーマーベースのバイナリコード埋め込みモデルUniASMを提案する。
– 生成されたベクトルの空間分布をより均一にするための2つの新しいトレーニングタスクを設計し、Fine-tuningなしでBCSDに直接使用できるようにする。
– また、バイナリ関数のトークン化手法を提案し、トークンの意味情報を増やし、語彙外問題(OOV)を緩和する。
– 我々は、因子分析実験によるモデルの性能に影響を与える要因を詳細に分析し、いくつかの新しい有益な知見を得た。
– 実験結果は、UniASMが評価データセットでSOTAアプローチを上回ることを示した。クロスコンパイラ、クロス最適化、クロス難読化のRecall@1の平均スコアは、それぞれ0.77、0.72、0.72であった。
– また、既知の脆弱性検索の実世界タスクにおいて、UniASMは現在のすべてのベースラインを上回る結果を出した。

要約(オリジナル)

Binary code similarity detection (BCSD) is widely used in various binary analysis tasks such as vulnerability search, malware detection, clone detection, and patch analysis. Recent studies have shown that the learning-based binary code embedding models perform better than the traditional feature-based approaches. In this paper, we propose a novel transformer-based binary code embedding model named UniASM to learn representations of the binary functions. We design two new training tasks to make the spatial distribution of the generated vectors more uniform, which can be used directly in BCSD without any fine-tuning. In addition, we present a new tokenization approach for binary functions, which increases the token’s semantic information and mitigates the out-of-vocabulary (OOV) problem. We conduct an in-depth analysis of the factors affecting model performance through ablation experiments and obtain some new and valuable findings. The experimental results show that UniASM outperforms the state-of-the-art (SOTA) approach on the evaluation dataset. The average scores of Recall@1 on cross-compilers, cross-optimization levels, and cross-obfuscations are 0.77, 0.72, and 0.72. Besides, in the real-world task of known vulnerability search, UniASM outperforms all the current baselines.

arxiv情報

著者 Yeming Gu,Hui Shu,Fan Hu
発行日 2023-04-06 04:49:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG, cs.SE パーマリンク