aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Processing

要約

大規模言語モデル (LLM) はコード補完に広く使用されており、研究者は LLM をスケールアップして精度を向上させることに重点を置いています。
ただし、LLM が大きくなると推論効率が低下し、開発者のエクスペリエンスと生産性に影響します。
この論文では、aiXcoder-7B というコード補完のための軽量で効果的な LLM を提案します。
aiXcoder-7B は、既存の LLM と比較して、より小規模なスケール (つまり 70 億パラメータ) でありながら、より高いコード補完精度を実現します。
aiXcoder-7B の優位性は次の 3 つの重要な要素によると考えられます。 (1) 多目的トレーニング。
私たちは 3 つのトレーニング目標を採用しており、その 1 つは私たちが提案する Structured Fill-In-the-Middle (SFIM) です。
SFIM はコード内の構文構造を考慮し、コードの LLM のパフォーマンスを効果的に向上させます。
(2) 多様なデータサンプリング戦略。
これらはファイル間の関係を考慮し、ファイル間のコンテキストを理解する際の LLM の機能を強化します。
(3) 豊富な高品質データ。
私たちは厳格なデータ収集パイプラインを確立し、aiXcoder-7B のトレーニングのために合計 1 兆 2000 億の一意のトークンを消費します。
この膨大な量のデータにより、aiXcoder-7B はコードの広範な分布を学習することができます。
aiXcoder-7B を 5 つの一般的なコード補完ベンチマークと、このペーパーで収集した新しいベンチマークで評価します。
結果は、aiXcoder-7B が同様のサイズの最新の 6 つの LLM を上回り、さらに 4 つのより大きな LLM (StarCoder2-15B や CodeLlama-34B など) をも上回るパフォーマンスを示し、aiXcoder-7B を学術界および産業界にとって軽量で効果的な LLM として位置付けていることを示しています。
最後に、実践者がコード用に次世代の LLM をトレーニングするのに役立つ 3 つの貴重な洞察をまとめます。
aiXcoder-7B はオープンソース化され、大きな注目を集めています。
2025 年 1 月までに、aiXcoder-7B は 2,226 個の GitHub スターを獲得しました。

要約(オリジナル)

Large Language Models (LLMs) have been widely used in code completion, and researchers are focusing on scaling up LLMs to improve their accuracy. However, larger LLMs have lower inference efficiency, affecting developers’ experience and productivity. In this paper, we propose a lightweight and effective LLM for code completion named aiXcoder-7B. Compared to existing LLMs, aiXcoder-7B achieves higher code completion accuracy while having smaller scales (i.e., 7 billion parameters). We attribute the superiority of aiXcoder-7B to three key factors: (1) Multi-objective training. We employ three training objectives, one of which is our proposed Structured Fill-In-the-Middle (SFIM). SFIM considers the syntax structures in code and effectively improves the performance of LLMs for code. (2) Diverse data sampling strategies. They consider inter-file relationships and enhance the capability of LLMs in understanding cross-file contexts. (3) Extensive high-quality data. We establish a rigorous data collection pipeline and consume a total of 1.2 trillion unique tokens for training aiXcoder-7B. This vast volume of data enables aiXcoder-7B to learn a broad distribution of code. We evaluate aiXcoder-7B in five popular code completion benchmarks and a new benchmark collected by this paper. The results show that aiXcoder-7B outperforms the latest six LLMs with similar sizes and even surpasses four larger LLMs (e.g., StarCoder2-15B and CodeLlama-34B), positioning aiXcoder-7B as a lightweight and effective LLM for academia and industry. Finally, we summarize three valuable insights for helping practitioners train the next generations of LLMs for code. aiXcoder-7B has been open-souced and gained significant attention. Until January 2025, aiXcoder-7B has received 2,226 GitHub Stars.

arxiv情報

著者 Siyuan Jiang,Jia Li,He Zong,Huanyu Liu,Hao Zhu,Shukai Hu,Erlu Li,Jiazheng Ding,Yu Han,Wei Ning,Gen Wang,Yihong Dong,Kechi Zhang,Ge Li
発行日 2025-01-16 12:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク