要約
コード生成の大規模な言語モデル(LLM)は、最新のソフトウェア開発に不可欠なツールになり、生産性を高め、開発を加速させます。
このペーパーは、強化学習と直接選好の最適化を使用して、コード生成LLMの微調整を調査し、パフォーマンスをさらに向上させることを目的としています。
これを達成するために、シンボリック実行技術の助けを借りて、報酬モデルのトレーニングデータを強化し、より包括的で客観的なデータを確保します。
シンボリック実行により、コード評価のニュアンスをより適切にキャプチャするカスタムデータセットを作成します。
このデータセットで微調整された報酬モデルは、生成されたコードの品質を推定する際に、ベースラインであるCoderlよりも大幅な改善を示しています。
報酬モデルフィードバックの助けを借りて訓練された私たちのコード生成LLMSは、Coderlベンチマークと比較して同様の結果を達成します。
要約(オリジナル)
Code-generating Large Language Models (LLMs) have become essential tools in modern software development, enhancing productivity and accelerating development. This paper aims to investigate the fine-tuning of code-generating LLMs using Reinforcement Learning and Direct Preference Optimization, further improving their performance. To achieve this, we enhance the training data for the reward model with the help of symbolic execution techniques, ensuring more comprehensive and objective data. With symbolic execution, we create a custom dataset that better captures the nuances in code evaluation. Our reward models, fine-tuned on this dataset, demonstrate significant improvements over the baseline, CodeRL, in estimating the quality of generated code. Our code-generating LLMs, trained with the help of reward model feedback, achieve similar results compared to the CodeRL benchmark.
arxiv情報
著者 | Marina Sakharova,Abhinav Anand,Mira Mezini |
発行日 | 2025-04-21 16:29:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google