FullStack Bench: Evaluating LLMs as Full Stack Coders

要約

コード・ラージ・ランゲージ・モデル(LLM)の能力が拡大し続ける中、多様なコード・インテリジェンス・ドメインへの応用が急速に増加している。しかし、既存のデータセットのほとんどは、限られたアプリケーションドメインしか評価していません。このギャップに対処するため、我々は、幅広い応用領域(基本プログラミング、データ解析、ソフトウェア工学、数学、機械学習など)を包含するフルスタックプログラミングに焦点を当てた包括的なコード評価データセットFullStack Benchを開発した。また、多言語プログラミング能力を評価するために、FullStack Benchでは、単純な翻訳ではなく、実際の使用シナリオを反映するように、広く使用されている16のプログラミング言語から実際の命令と対応するユニットテストケースを設計しています。さらに、FullStack Benchの性能を効率的に評価するために、様々なプログラミング言語やパッケージをサポートする効果的なコードサンドボックス実行ツール(SandboxFusion)も公開しています。FullStack Benchの包括的な実験結果は、FullStack BenchとSandboxFusionの必要性と有効性を実証しています。

要約(オリジナル)

As the capabilities of code large language models (LLMs) continue to expand, their applications across diverse code intelligence domains are rapidly increasing. However, most existing datasets only evaluate limited application domains. To address this gap, we have developed a comprehensive code evaluation dataset FullStack Bench focusing on full-stack programming, which encompasses a wide range of application domains (e.g., basic programming, data analysis, software engineering, mathematics, and machine learning). Besides, to assess multilingual programming capabilities, in FullStack Bench, we design real-world instructions and corresponding unit test cases from 16 widely-used programming languages to reflect real-world usage scenarios rather than simple translations. Moreover, we also release an effective code sandbox execution tool (i.e., SandboxFusion) supporting various programming languages and packages to evaluate the performance of our FullStack Bench efficiently. Comprehensive experimental results on our FullStack Bench demonstrate the necessity and effectiveness of our FullStack Bench and SandboxFusion.

arxiv情報

著者 Siyao Liu,He Zhu,Jerry Liu,Shulin Xin,Aoyan Li,Rui Long,Li Chen,Jack Yang,Jinxiang Xia,Z. Y. Peng,Shukai Liu,Zhaoxiang Zhang,Jing Mai,Ge Zhang,Wenhao Huang,Kai Shen,Liang Xiang
発行日 2024-12-03 16:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SE パーマリンク