SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings

要約

機能レベルのバイナリ コードの類似性検出は、サイバーセキュリティの重要な側面です。
これにより、リリースされたソフトウェアのバグや特許侵害の検出が可能になり、サプライ チェーン攻撃の防止において極めて重要な役割を果たします。
実用的な埋め込み学習フレームワークは、アセンブリ コード表現の堅牢性と関数ペアのアノテーションの精度に依存しており、これは従来、教師あり学習ベースのフレームワークを使用して実現されていました。
ただし、異なる関数のペアに正確なラベルを付けるには、かなりの課題が生じます。
これらの教師あり学習手法は簡単に過剰学習される可能性があり、表現の堅牢性の問題に悩まされる可能性があります。
これらの課題に対処するために、私たちは SimCLF: 関数レベルのバイナリ埋め込みのための単純な対照学習フレームワークを提案します。
私たちは教師なし学習アプローチを採用し、バイナリ コードの類似性検出をインスタンスの識別として定式化します。
SimCLF は、逆アセンブルされたバイナリ関数を直接操作し、任意のエンコーダで実装できます。
手動で注釈を付けた情報は必要なく、拡張されたデータのみが必要です。
拡張データは、コンパイラの最適化オプションとコード難読化技術を使用して生成されます。
実験結果は、SimCLF が精度において最新技術を上回り、ショット数の少ない設定で大きな利点があることを示しています。

要約(オリジナル)

Function-level binary code similarity detection is a crucial aspect of cybersecurity. It enables the detection of bugs and patent infringements in released software and plays a pivotal role in preventing supply chain attacks. A practical embedding learning framework relies on the robustness of the assembly code representation and the accuracy of function-pair annotation, which is traditionally accomplished using supervised learning-based frameworks. However, annotating different function pairs with accurate labels poses considerable challenges. These supervised learning methods can be easily overtrained and suffer from representation robustness problems. To address these challenges, we propose SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings. We take an unsupervised learning approach and formulate binary code similarity detection as instance discrimination. SimCLF directly operates on disassembled binary functions and could be implemented with any encoder. It does not require manually annotated information but only augmented data. Augmented data is generated using compiler optimization options and code obfuscation techniques. The experimental results demonstrate that SimCLF surpasses the state-of-the-art in accuracy and has a significant advantage in few-shot settings.

arxiv情報

著者 Sun RuiJin,Guo Shize,Guo Jinhong,Li Wei,Zhan Dazhi,Sun Meng,Pan Zhisong
発行日 2023-12-26 17:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.PL, cs.SE パーマリンク