要約
特にコードインテリジェンスなどの特殊なドメインでは、データ圧縮と大規模な言語モデル(LLMS)の機能との関係を理解することが重要です。
以前の研究は、圧縮と一般的な知能の間に線形関係を提起しました。
しかし、多様なプログラミング言語とタスクを網羅するコードの多面的な性質を見落とし、最新のコードLLMの公正な評価に苦労しました。
これに対処し、包括的なマルチ言語、マルチタスクコードベンチマークに関する多様なオープンソースコードLLMを評価します。
事前に訓練されたLLMSのコードインテリジェンスの効率的かつ公正な評価の課題に対処するために、これらの事前訓練モデルの本質的な機能を公平に評価するために設計された軽量で透明なトレーニング方法論である\ textit {形式アニーリング}を紹介します。
キャラクターあたりビット(BPC)として測定された圧縮効果は、GitHubから派生した新規、大規模、および以前に見えないコード検証セットを使用して決定されます。
私たちの経験的結果は、測定されたコードインテリジェンスとBPCの間の基本的な対数関係を明らかにしています。
この発見は、以前の直線性の仮説を改良します。これは、特定の限られた条件下での対数曲線の尾の観察がおそらく観察される可能性が高いことを示唆しています。
私たちの仕事は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解することを提供し、コードドメインの堅牢な評価フレームワークに貢献します。
要約(オリジナル)
Understanding the relationship between data compression and the capabilities of Large Language Models (LLMs) is crucial, especially in specialized domains like code intelligence. Prior work posited a linear relationship between compression and general intelligence. However, it overlooked the multifaceted nature of code that encompasses diverse programming languages and tasks, and struggled with fair evaluation of modern Code LLMs. We address this by evaluating a diverse array of open-source Code LLMs on comprehensive multi-language, multi-task code benchmarks. To address the challenge of efficient and fair evaluation of pre-trained LLMs’ code intelligence, we introduce \textit{Format Annealing}, a lightweight, transparent training methodology designed to assess the intrinsic capabilities of these pre-trained models equitably. Compression efficacy, measured as bits-per-character (BPC), is determined using a novel, large-scale, and previously unseen code validation set derived from GitHub. Our empirical results reveal a fundamental logarithmic relationship between measured code intelligence and BPC. This finding refines prior hypotheses of linearity, which we suggest are likely observations of the logarithmic curve’s tail under specific, limited conditions. Our work provides a more nuanced understanding of compression’s role in developing code intelligence and contributes a robust evaluation framework in the code domain.
arxiv情報
著者 | Xianzhen Luo,Shijie Xuyang,Tianhao Cheng,Zheng Chu,Houyi Li,ziqi wang,Siming Huang,Qingfu Zhu,Qiufeng Wang,Xiangyu Zhang,Shuigeng Zhou,Wanxiang Che |
発行日 | 2025-05-16 16:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google