SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

要約

ニューラル・サロゲート・モデルは、データマイニングにおける強力かつ効率的なツールとして登場した。一方、大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を発揮している。我々は、コード実行予測のためのサロゲートモデルとしてLLMを使用するという新しいアプリケーションを調査する。LLMが多様なプログラムを理解し処理するユニークな能力を持つことから、汎用的なサロゲートモデルを構築するための有望な方向性を示している。この能力を系統的に調査するために、我々はSURGEを導入する。SURGEは、多言語プログラミングタスク、競争レベルのプログラミング問題、リポジトリレベルのコード解析、高コスト科学計算、時間-完全性集約アルゴリズム、バグコード解析、特定のコンパイラや実行環境に依存するプログラム、形式的数学証明検証など、$8$の主要な側面をカバーする$1160$の問題を含む包括的ベンチマークである。21$のオープンソースとプロプライエタリのLLMの広範な実証分析を通じて、スケーリング法則、データ効率、予測精度を検証する。我々の発見は、計算プロセスの効率的なサロゲートとしてのLLMの実現可能性に関する重要な洞察を明らかにし、自動ソフトウェアテスト、プログラム解析、データマイニングアプリケーションにおける計算リソースの最適化に示唆を与える。コードとデータセットはhttps://github.com/Imbernoulli/SURGE。

要約(オリジナル)

Neural surrogate models have emerged as powerful and efficient tools in data mining. Meanwhile, large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks. We investigate a novel application: using LLMs as surrogate models for code execution prediction. Given LLMs’ unique ability to understand and process diverse programs, they present a promising direction for building general-purpose surrogate models. To systematically investigate this capability, we introduce SURGE, a comprehensive benchmark with $1160$ problems covering $8$ key aspects: multi-language programming tasks, competition-level programming problems, repository-level code analysis, high-cost scientific computing, time-complexity-intensive algorithms, buggy code analysis, programs dependent on specific compilers or execution environments, and formal mathematical proof verification. Through extensive empirical analysis of $21$ open-source and proprietary LLMs, we examine scaling laws, data efficiency, and predictive accuracy. Our findings reveal important insights about the feasibility of LLMs as efficient surrogates for computational processes, with implications for automated software testing, program analysis, and computational resource optimization in data mining applications. Code and dataset are released at https://github.com/Imbernoulli/SURGE.

arxiv情報

著者 Bohan Lyu,Siqiao Huang,Zichen Liang
発行日 2025-03-03 08:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク