ACECODER: Acing Coder RL via Automated Test-Case Synthesis

要約

最近のコーダーモデルのほとんどの進歩は、監視された微調整(SFT)によって推進されていますが、主にコードドメインに信頼できる報酬データ/モデルがないため、強化学習の可能性(RL)はほとんど未調査のままです。
この論文では、自動化された大規模なテストケース合成を活用してコードモデルトレーニングを強化することにより、この課題に対処します。
具体的には、既存のコードデータから広範な(質問、テストケース)ペアを生成するパイプラインを設計します。
これらのテストケースを使用して、サンプリングされたプログラムの合格率に基づいて優先ペアを構築し、ブラッドリーテリーの損失で報酬モデルを訓練します。
Llama-3.1-8b-insの平均10ポイント改善と、32のベストサンプリングを通じてQWEN2.5-Coder-7B-Insの5ポイント改善が示され、7Bモデルは236B DeepSeek-と同等になります。
v2.5。
さらに、報酬モデルとテストケースパスの報酬の両方で強化学習を実施し、Humanval、MBPP、BigCodebench、およびLiveCodebench(V4)全体で一貫した改善につながります。
特に、R1スタイルのトレーニングに従って、QWEN2.5-CODER-BASEから直接開始し、RLトレーニングがHumanEval-Plusのモデルを25 \%以上、MBPP-Plusを6 \%以上改善できることを示しています。
ステップ。
私たちの結果は、コーダーモデルの強化学習の大きな可能性を強調していると考えています。

要約(オリジナル)

Most progress in recent coder models has been driven by supervised fine-tuning (SFT), while the potential of reinforcement learning (RL) remains largely unexplored, primarily due to the lack of reliable reward data/model in the code domain. In this paper, we address this challenge by leveraging automated large-scale test-case synthesis to enhance code model training. Specifically, we design a pipeline that generates extensive (question, test-cases) pairs from existing code data. Using these test cases, we construct preference pairs based on pass rates over sampled programs to train reward models with Bradley-Terry loss. It shows an average of 10-point improvement for Llama-3.1-8B-Ins and 5-point improvement for Qwen2.5-Coder-7B-Ins through best-of-32 sampling, making the 7B model on par with 236B DeepSeek-V2.5. Furthermore, we conduct reinforcement learning with both reward models and test-case pass rewards, leading to consistent improvements across HumanEval, MBPP, BigCodeBench, and LiveCodeBench (V4). Notably, we follow the R1-style training to start from Qwen2.5-Coder-base directly and show that our RL training can improve model on HumanEval-plus by over 25\% and MBPP-plus by 6\% for merely 80 optimization steps. We believe our results highlight the huge potential of reinforcement learning in coder models.

arxiv情報

著者 Huaye Zeng,Dongfu Jiang,Haozhe Wang,Ping Nie,Xiaotong Chen,Wenhu Chen
発行日 2025-02-06 18:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク