$\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

要約

優先学習は、正しいコードと間違ったコードを区別するようにモデルが明示的にトレーニングされていない、コード言語モデルの教師あり微調整 (SFT) の制限に対処する有望なソリューションを提供します。
最近の調査結果は、ポリシー上のデータが優先学習の成功の鍵であることを示しており、優先データはトレーニングされている同じポリシー LM を使用して収集されます。
これに触発されて、コード L$\textbf{M} のテスト ケースを備えたオンポリシー $\textbf{P}$reference $\textbf{L}$獲得フレームワーク A$\textbf{u}$gmented PLUM を提案します。
$s。
このフレームワークは 3 つの主要な段階で動作します: (1) 自然言語命令からのテスト ケースの自動生成、(2) ポリシーからサンプリングされた候補コード ソリューションを評価することによる優先データの作成。その後、そのデータは (3) トレーニングに使用できます。
政策LM。
PLUM を使用すると、報酬モデルをトレーニングする必要性がなくなり、ポリシーに基づいた大規模なデータ照合やオンライン嗜好データの照合が可能になります。
PLUM は、標準的なベンチマーク (HumanEval、MBPP) とより困難なベンチマーク (LiveCodeBench) の両方で評価され、元の SFT モデルやその他の実行フィードバック主導のアプローチに比べて大幅な改善を実現します。
PLUM の利点は、SFT で十分にトレーニングされている場合でも、広く使用されているさまざまなコード LM にわたって一貫していることを示します。
たとえば、PLUM は、標準ベンチマークでは平均で最大 4.8%、LiveCodeBench では 11.8% 合格率を向上させ、その有効性と汎用性を実証しています。
また、包括的な実験により、ポリシーに基づく学習とオンラインの好みの学習の利点も実証します。

要約(オリジナル)

Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT’ed models and other execution-feedback-driven approaches. We show PLUM’s benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.

arxiv情報

著者 Dylan Zhang,Shizhe Diao,Xueyan Zou,Hao Peng
発行日 2024-10-10 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE パーマリンク