Nova$^+$: Generative Language Models for Binaries

要約

コードで事前トレーニングされた生成大規模言語モデル (LLM) は、コード生成、プログラム修復、ドキュメント分析において優れた効果を示しています。
ただし、既存の生成 LLM はソース コードに重点を置いており、バイナリに特化していません。
LLM がバイナリ コードをモデル化して学習するには、16 進値、複雑なグローバル依存関係、コンパイラの最適化レベルという 3 つの主な課題があります。
LLM の利点をバイナリ ドメインにもたらすために、バイナリ コーパスで事前トレーニングされた LLM である Nova および Nova$^+$ を開発しました。
Nova は標準言語モデリング タスクで事前トレーニングされており、GPT を介したバイナリ コード類似性検出 (BCSD)、バイナリ コード変換 (BCT)、およびバイナリ コード回復 (BCR) の 3 つのダウンストリーム タスクの 5 つのベンチマークで大幅に優れた機能を示しています。
3.5 およびその他の既存の技術。
Nova$^+$ を構築して、2 つの新しい事前トレーニング タスク (最適化生成と最適化レベル予測) を使用して Nova をさらに強化します。これらのタスクは、バイナリ最適化を学習し、同等のバイナリを調整するように設計されています。
Nova$^+$ は、5 つのベンチマークで 3 つのダウンストリーム タスクすべてに対して全体的に最高のパフォーマンスを示し、新しい事前トレーニング タスクの貢献を示しています。

要約(オリジナル)

Generative large language models (LLMs) pre-trained on code have shown impressive effectiveness in code generation, program repair, and document analysis. However, existing generative LLMs focus on source code and are not specialized for binaries. There are three main challenges for LLMs to model and learn binary code: hex-decimal values, complex global dependencies, and compiler optimization levels. To bring the benefit of LLMs to the binary domain, we develop Nova and Nova$^+$, which are LLMs pre-trained on binary corpora. Nova is pre-trained with the standard language modeling task, showing significantly better capability on five benchmarks for three downstream tasks: binary code similarity detection (BCSD), binary code translation (BCT), and binary code recovery (BCR), over GPT-3.5 and other existing techniques. We build Nova$^+$ to further boost Nova using two new pre-training tasks, i.e., optimization generation and optimization level prediction, which are designed to learn binary optimization and align equivalent binaries. Nova$^+$ shows overall the best performance for all three downstream tasks on five benchmarks, demonstrating the contributions of the new pre-training tasks.

arxiv情報

著者 Nan Jiang,Chengxiao Wang,Kevin Liu,Xiangzhe Xu,Lin Tan,Xiangyu Zhang
発行日 2023-11-27 18:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク