Improving Code Generation by Training with Natural Language Feedback

要約

タイトル:自然言語フィードバックによるコード生成の改善

要約:
– 大規模言語モデル(LLM)が推論時に自然言語フィードバックを使用できる可能性があることが最近の興味深い開発である。
– この観察に基づいて、自然言語フィードバックから学習するアルゴリズムを形式化し、Imitation learning from Language Feedback(ILF)と呼ぶ。
– ILFは、訓練中にわずかな量の人間によるフィードバックのみを必要とし、テスト時に同じフィードバックが必要ではないため、ユーザーフレンドリーでサンプル効率が高い。
– ILFは、ground truth distributionに対するKLダイバージェンスの最小化の形式と見なすことができ、ニューラルプログラム合成タスクのproof-of-conceptを示す。
– ILFを使用して、Codegen-Mono 6.1Bモデルのpass@1率を、Mostly Basic Python Problems(MBPP)ベンチマークで38%相対的(10%絶対的)に向上させ、MBPPでの微調整と、修正されたプログラムを人間が書いたものによる微調整を上回る結果となった。
– 全体として、人間が書いた自然言語フィードバックから学習することが、LLMのコード生成タスクのパフォーマンスを改善するためのデモンストレーションに限定的に訓練するよりも効果的でサンプル効率が高いことを示唆している。

要約(オリジナル)

The potential for pre-trained large language models (LLMs) to use natural language feedback at inference time has been an exciting recent development. We build upon this observation by formalizing an algorithm for learning from natural language feedback at training time instead, which we call Imitation learning from Language Feedback (ILF). ILF requires only a small amount of human-written feedback during training and does not require the same feedback at test time, making it both user-friendly and sample-efficient. We further show that ILF can be seen as a form of minimizing the KL divergence to the ground truth distribution and demonstrate a proof-of-concept on a neural program synthesis task. We use ILF to improve a Codegen-Mono 6.1B model’s pass@1 rate by 38% relative (and 10% absolute) on the Mostly Basic Python Problems (MBPP) benchmark, outperforming both fine-tuning on MBPP and fine-tuning on repaired programs written by humans. Overall, our results suggest that learning from human-written natural language feedback is both more effective and sample-efficient than training exclusively on demonstrations for improving an LLM’s performance on code generation tasks.

arxiv情報

著者 Angelica Chen,Jérémy Scheurer,Tomasz Korbak,Jon Ander Campos,Jun Shern Chan,Samuel R. Bowman,Kyunghyun Cho,Ethan Perez
発行日 2023-03-28 16:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク