ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation

要約

コード生成は、コードの自動補完や数学的推論など、さまざまなタスクにおいて重要な役割を果たします。
これまでの研究では、コンパイラからのフィードバックを統合するなど、コード生成のパフォーマンスを向上させるための多数の方法が提案されてきました。
これに触発されて、コンパイラーのフィードバックを統合して構築されたリフレクション シーケンスを効果的に活用して、1 回限りのコード生成パフォーマンスを向上させる新しいアプローチである ReflectionCoder を紹介します。
さらに、これらの反射シーケンスを効果的に利用するために、反射自己蒸留と動的マスク蒸留を提案します。
HumanEval (+)、MBPP (+)、MultiPl-E の 3 つのベンチマークに関する広範な実験により、私たちの手法で微調整されたモデルが最先端のパフォーマンスを達成することが実証されました。
特に、ReflectionCoder-DeepSeek-Coder-33B は、HumanEval (+) で 82.9 (76.8)、MBPP (+) で 84.1 (72.0) の pass@1 に達し、GPT-3.5-Turbo および Claude-3-opus と同等になります。
初期の GPT-4 を上回ります。
コード ドメインを超えて、このアプローチは、最終結果に重点を置き、長い推論パスを必要とする他のドメインにも利益をもたらす可能性があると考えています。
コードとデータは https://github.com/SenseLLM/ReflectionCoder で入手できます。

要約(オリジナル)

Code generation plays a crucial role in various tasks, such as code auto-completion and mathematical reasoning. Previous work has proposed numerous methods to enhance code generation performance, including integrating feedback from the compiler. Inspired by this, we present ReflectionCoder, a novel approach that effectively leverages reflection sequences constructed by integrating compiler feedback to improve one-off code generation performance. Furthermore, we propose reflection self-distillation and dynamically masked distillation to effectively utilize these reflection sequences. Extensive experiments on three benchmarks, i.e., HumanEval (+), MBPP (+), and MultiPl-E, demonstrate that models fine-tuned with our method achieve state-of-the-art performance. Notably, ReflectionCoder-DeepSeek-Coder-33B reaches pass@1 of 82.9 (76.8) on HumanEval (+) and 84.1 (72.0) on MBPP (+), on par with GPT-3.5-Turbo and Claude-3-opus, and surpasses early GPT-4. Beyond the code domain, we believe this approach can benefit other domains that focus on final results and require long reasoning paths. Code and data are available at https://github.com/SenseLLM/ReflectionCoder.

arxiv情報

著者 Houxing Ren,Mingjie Zhan,Zhongyuan Wu,Aojun Zhou,Junting Pan,Hongsheng Li
発行日 2024-05-27 11:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク