要約
大規模な言語モデル(LLM)は、研究と社会のさまざまな分野を進める上で重要な可能性を示しています。
ただし、LLMSの現在のコミュニティは、特定の基礎スキル(数学やコード生成など)を分析するためのベンチマークに過度に焦点を当てており、コンピューターサイエンス分野の万能評価を無視しています。
このギャップを埋めるために、コンピューターサイエンスにおけるLLMSのパフォーマンスの評価に専念する最初の多言語(英語、中国語、フランス語、ドイツ語)ベンチマークであるCSベンチを紹介します。
CSベンチは、約10Kの細心の注意を払ってキュレーションされたテストサンプルで構成され、コンピューターサイエンスの4つの重要な領域にわたって26のサブフィールドをカバーし、知識と推論のさまざまなタスクフォームと部門を網羅しています。
CSベンチを利用して、30を超える主流LLMの包括的な評価を実施し、CSパフォーマンスとモデルスケールの関係を明らかにします。
また、既存のLLMSの失敗の理由を定量的に分析し、知識の補充やCS固有の推論を含む改善の方向性を強調します。
さらなるクロス容量実験により、コンピューターサイエンスにおけるLLMS機能と数学とコーディングの能力との間に高い相関があることが示されています。
さらに、数学とコーディングに特化した専門家LLMは、いくつかのCSサブフィールドで強力なパフォーマンスを示しています。
今後、CSベンチがCSフィールドでのLLMアプリケーションの基礎として機能し、LLMSの多様な推論能力を評価する新しい道を舗装することを想定しています。
CSベンチデータと評価コードは、https://github.com/csbench/csbenchで入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated significant potential in advancing various fields of research and society. However, the current community of LLMs overly focuses on benchmarks for analyzing specific foundational skills (e.g. mathematics and code generation), neglecting an all-round evaluation of the computer science field. To bridge this gap, we introduce CS-Bench, the first multilingual (English, Chinese, French, German) benchmark dedicated to evaluating the performance of LLMs in computer science. CS-Bench comprises approximately 10K meticulously curated test samples, covering 26 subfields across 4 key areas of computer science, encompassing various task forms and divisions of knowledge and reasoning. Utilizing CS-Bench, we conduct a comprehensive evaluation of over 30 mainstream LLMs, revealing the relationship between CS performance and model scales. We also quantitatively analyze the reasons for failures in existing LLMs and highlight directions for improvements, including knowledge supplementation and CS-specific reasoning. Further cross-capability experiments show a high correlation between LLMs’ capabilities in computer science and their abilities in mathematics and coding. Moreover, expert LLMs specialized in mathematics and coding also demonstrate strong performances in several CS subfields. Looking ahead, we envision CS-Bench serving as a cornerstone for LLM applications in the CS field and paving new avenues in assessing LLMs’ diverse reasoning capabilities. The CS-Bench data and evaluation code are available at https://github.com/csbench/csbench.
arxiv情報
| 著者 | Xiaoshuai Song,Muxi Diao,Guanting Dong,Zhengyang Wang,Yujia Fu,Runqi Qiao,Zhexu Wang,Dayuan Fu,Huangxuan Wu,Bin Liang,Weihao Zeng,Yejie Wang,Zhuoma GongQue,Jianing Yu,Qiuna Tan,Weiran Xu |
| 発行日 | 2025-02-28 15:16:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google