要約
コード大規模言語モデル (LLM) の機能が拡張し続けるにつれて、さまざまなコード インテリジェンス ドメインにわたる LLM のアプリケーションが急速に増加しています。
ただし、既存のデータセットのほとんどは、限られたアプリケーション ドメインのみを評価します。
このギャップに対処するために、私たちはフルスタック プログラミングに焦点を当てた包括的なコード評価データセット FullStack Bench を開発しました。これは、幅広いアプリケーション ドメイン (基本的なプログラミング、データ分析、ソフトウェア エンジニアリング、数学、機械学習など) を網羅します。
さらに、多言語プログラミング機能を評価するために、FullStack Bench では、単純な翻訳ではなく実際の使用シナリオを反映するために、広く使用されている 16 のプログラミング言語から実際の命令と対応する単体テスト ケースを設計します。
さらに、FullStack Bench のパフォーマンスを効率的に評価するために、さまざまなプログラミング言語とパッケージをサポートする効果的なコード サンドボックス実行ツール (SandboxFusion) もリリースします。
FullStack Bench での包括的な実験結果は、FullStack Bench と SandboxFusion の必要性と有効性を実証しています。
要約(オリジナル)
As the capabilities of code large language models (LLMs) continue to expand, their applications across diverse code intelligence domains are rapidly increasing. However, most existing datasets only evaluate limited application domains. To address this gap, we have developed a comprehensive code evaluation dataset FullStack Bench focusing on full-stack programming, which encompasses a wide range of application domains (e.g., basic programming, data analysis, software engineering, mathematics, and machine learning). Besides, to assess multilingual programming capabilities, in FullStack Bench, we design real-world instructions and corresponding unit test cases from 16 widely-used programming languages to reflect real-world usage scenarios rather than simple translations. Moreover, we also release an effective code sandbox execution tool (i.e., SandboxFusion) supporting various programming languages and packages to evaluate the performance of our FullStack Bench efficiently. Comprehensive experimental results on our FullStack Bench demonstrate the necessity and effectiveness of our FullStack Bench and SandboxFusion.
arxiv情報
著者 | Bytedance-Seed-Foundation-Code-Team,:,Yao Cheng,Jianfeng Chen,Jie Chen,Li Chen,Liyu Chen,Wentao Chen,Zhengyu Chen,Shijie Geng,Aoyan Li,Bo Li,Bowen Li,Linyi Li,Boyi Liu,Jerry Liu,Kaibo Liu,Qi Liu,Shukai Liu,Siyao Liu,Tianyi Liu,Tingkai Liu,Yongfei Liu,Rui Long,Jing Mai,Guanghan Ning,Z. Y. Peng,Kai Shen,Jiahao Su,Jing Su,Tao Sun,Yifan Sun,Yunzhe Tao,Guoyin Wang,Siwei Wang,Xuwu Wang,Yite Wang,Zihan Wang,Jinxiang Xia,Liang Xiang,Xia Xiao,Yongsheng Xiao,Chenguang Xi,Shulin Xin,Jingjing Xu,Shikun Xu,Hongxia Yang,Jack Yang,Yingxiang Yang,Jianbo Yuan,Jun Zhang,Yufeng Zhang,Yuyu Zhang,Shen Zheng,He Zhu,Ming Zhu |
発行日 | 2024-12-20 14:58:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google