Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis

要約

コード合成の領域における事前トレーニング済みの大規模な言語モデルの出現により、言語モデリング (LM) の目的でトレーニングされた自然言語生成と同様の方法でコード生成の問題が扱われ、さまざまなベンチマークで驚くべきパフォーマンスが示されました。
さらに、プログラミング言語コードは、機能の正しさをチェックするための単体テストの使用を通じて、セマンティクスに関して正確に評価できるという特性により、さらなるトレーニング パラダイムとして強化学習 (RL) を使用するのに役立ちます。
これまでの研究では、RL をそのまま適用してモデルのコーディング機能を向上できることが示されています。
ただし、このような RL ベースの手法は、定義された単体テストに基づく報酬シグナルに依存しており、LM 目標で使用される巨大なクロールされたコード データセットと比較して取得がはるかに困難です。
この研究では、コード合成モデルの RL トレーニングに適した、関数シグネチャと関連する単体テストで構成されるデータを自動的に取得する新しいアプローチを紹介します。
また、直接的でシンプルでありながら効果的な Actor-Critic RL トレーニング スキームを紹介し、それが自動的に生成されたトレーニング データと組み合わせることで、事前トレーニングされたコード言語モデルのパフォーマンスが元の基礎に比べて最大 9.9% 向上することを示します。
コード合成 LM よりも優れており、標準 PPO または CodeRL でトレーニングされた RL ベースのモデルよりも最大 4.3% 優れています。

要約(オリジナル)

The advent of large pre-trained language models in the domain of Code Synthesis has shown remarkable performance on various benchmarks, treating the problem of Code Generation in a fashion similar to Natural Language Generation, trained with a Language Modelling (LM) objective. In addition, the property of programming language code being precisely evaluable with respect to its semantics — through the use of Unit Tests to check its functional correctness — lends itself to using Reinforcement Learning (RL) as a further training paradigm. Previous work has shown that RL can be applied as such to improve models’ coding capabilities; however, such RL-based methods rely on a reward signal based on defined Unit Tests, which are much harder to obtain compared to the huge crawled code datasets used in LM objectives. In this work, we present a novel approach to automatically obtain data consisting of function signatures and associated Unit Tests, suitable for RL training of Code Synthesis models. We also introduce a straightforward, simple yet effective Actor-Critic RL training scheme and show that it, in conjunction with automatically generated training data, leads to improvement of a pre-trained code language model’s performance by up to 9.9% improvement over the original underlying code synthesis LM, and up to 4.3% over RL-based models trained with standard PPO or CodeRL.

arxiv情報

著者 Philip John Gorinski,Matthieu Zimmer,Gerasimos Lampouras,Derrick Goh Xin Deik,Ignacio Iacobacci
発行日 2023-10-20 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL パーマリンク