要約
アセンブリコードの分析と理解は、リバースエンジニアリングなど、さまざまなアプリケーションで重要です。
ただし、情報密度が低く、アセンブリコードの明示的な構文構造の欠如は、重要な課題をもたらします。
マスクされた言語モデリング(MLM)ベースの方法を使用した先駆的なアプローチは、自然言語の相互作用を促進することにより制限されています。
デコーダー中心の大手言語モデル(LLM)に基づく最近の方法は、セマンティック表現を大幅に強化していますが、アセンブリコードで微妙でまばらなセマンティクスをキャプチャするのに苦労しています。
このホワイトペーパーでは、エンドツーエンドの構造セマンティック命令調整フレームワークであるアセンブリ拡張チューニング(ASMA-Tune)を提案します。
当社のアプローチは、包括的なコード理解を可能にするために、プロジェクターモジュールを介してデコーダーベースのLLMSを使用してエンコーダーアーキテクチャを相乗化します。
実験では、ASMA-Tuneが既存のベンチマークを上回り、アセンブリコードの理解と命令に従う能力を大幅に向上させることが示されています。
モデルとデータセットはhttps://github.com/wxy3596/asma-tuneで公開されています。
要約(オリジナル)
Analysis and comprehension of assembly code are crucial in various applications, such as reverse engineering. However, the low information density and lack of explicit syntactic structures in assembly code pose significant challenges. Pioneering approaches with masked language modeling (MLM)-based methods have been limited by facilitating natural language interaction. While recent methods based on decoder-focused large language models (LLMs) have significantly enhanced semantic representation, they still struggle to capture the nuanced and sparse semantics in assembly code. In this paper, we propose Assembly Augmented Tuning (ASMA-Tune), an end-to-end structural-semantic instruction-tuning framework. Our approach synergizes encoder architectures with decoder-based LLMs through projector modules to enable comprehensive code understanding. Experiments show that ASMA-Tune outperforms existing benchmarks, significantly enhancing assembly code comprehension and instruction-following abilities. Our model and dataset are public at https://github.com/wxy3596/ASMA-Tune.
arxiv情報
著者 | Xinyi Wang,Jiashui Wang,Peng Chen,Jinbo Su,Yanming Liu,Long Liu,Yangdong Wang,Qiyuan Chen,Kai Yun,Chunfu Jia |
発行日 | 2025-03-14 17:36:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google