Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models

要約

バイナリ コードの要約は、コードのセマンティクスを理解するのに非常に貴重ではありますが、労働集約的な性質のため困難です。
この研究では、バイナリ コード理解のための大規模言語モデル (LLM) の可能性を掘り下げています。
この目的を達成するために、557,000 を超えるバイナリ関数の包括的なベンチマークおよびデータセットである BinSum を提示し、迅速な合成と最適化のための新しい方法を紹介します。
LLM のパフォーマンスをより正確に測定するために、従来の完全一致アプローチを超える新しい意味的類似性メトリックも提案します。
ChatGPT、GPT-4、Llama 2、Code Llama などの著名な LLM を広範に評価した結果、10 の重要な洞察が明らかになりました。
この評価では 40 億の推論トークンが生成され、総費用は 11,418 米ドル、NVIDIA A100 GPU 時間は 873 時間かかりました。
私たちの調査結果は、この分野における LLM の変革の可能性と、まだ克服されていない課題の両方を浮き彫りにしています。

要約(オリジナル)

Binary code summarization, while invaluable for understanding code semantics, is challenging due to its labor-intensive nature. This study delves into the potential of large language models (LLMs) for binary code comprehension. To this end, we present BinSum, a comprehensive benchmark and dataset of over 557K binary functions and introduce a novel method for prompt synthesis and optimization. To more accurately gauge LLM performance, we also propose a new semantic similarity metric that surpasses traditional exact-match approaches. Our extensive evaluation of prominent LLMs, including ChatGPT, GPT-4, Llama 2, and Code Llama, reveals 10 pivotal insights. This evaluation generates 4 billion inference tokens, incurred a total expense of 11,418 US dollars and 873 NVIDIA A100 GPU hours. Our findings highlight both the transformative potential of LLMs in this field and the challenges yet to be overcome.

arxiv情報

著者 Xin Jin,Jonathan Larson,Weiwei Yang,Zhiqiang Lin
発行日 2023-12-15 08:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG, cs.SE パーマリンク