要約
マルチターン実行フィードバックからのコード生成の問題に対処します。
既存の方法は、フィードバックなしでコードを生成するか、複雑で階層的な強化学習を使用して、マルチターン報酬を最適化します。
シンプルでありながらスケーラブルなアプローチ、$ \ MU $コードを提案します。これは、単一ステップの報酬のみを使用してマルチターンコード生成を解決します。
私たちの重要な洞察は、コード生成はワンステップ回復可能なMDPであり、1回のターンで任意の中間コード状態から正しいコードを回復できるということです。
$ \ MU $コードは、マルチターン実行フィードバックを条件付けたコードソリューションと、新しく生成されたコードを採点する検証器を提供するジェネレーターの両方を繰り返しトレーニングします。
実験的評価は、私たちのアプローチが最先端のベースラインよりも大幅な改善を達成することを示しています。
報酬モデルとポリシーの設計選択の分析を提供し、実行フィードバックを利用して$ \ mu $コードの有効性を示します。
私たちのコードは、https://github.com/portal-cornell/mucodeで入手できます。
要約(オリジナル)
We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, $\mu$Code, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. $\mu$Code iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of $\mu$Code at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.
arxiv情報
著者 | Arnav Kumar Jain,Gonzalo Gonzalez-Pumariega,Wayne Chen,Alexander M Rush,Wenting Zhao,Sanjiban Choudhury |
発行日 | 2025-02-27 18:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google