Demystifying GPT Self-Repair for Code Generation

要約

大規模言語モデル (LLM) は、コード生成において顕著な適性を示していますが、難しいプログラミングタスクでは依然として苦戦しています。
自己修復 (モデルがデバッグしてコード自体の間違いを修正する) は、最近、これらの設定でパフォーマンスを向上させる一般的な方法となっています。
ただし、自己修復がいつどのように効果的に機能するかについての文献には非常に限られた研究しか存在せず、モデルが実際にどの程度、コードが生成されたときにそのコードが間違っているのかについて正確なフィードバックを提供できるのか疑問に思う人もいるかもしれません。
モデル。
この論文では、多様なコーディング課題で構成される挑戦的なデータセットである APPS 上で自己修復を実行する GPT-3.5 と GPT-4 の機能を分析します。
そのために、まず pass@t と呼ばれる新しい評価戦略を確立します。これは、モデルからサンプリングされたトークンの総数に対するタスクの合格率を測定し、純粋なサンプリングベースのアプローチとの公正な比較を可能にします。
この評価戦略により、自己修復の有効性が GPT-4 でのみ見られることがわかります。
また、自己修復がフィードバック段階によってボトルネックになっていることがわかります。
GPT-4 を使用して GPT-3.5 によって生成されたプログラムにフィードバックを提供し、専門の人間のプログラマーを使用して GPT-4 によって生成されたプログラムにフィードバックを提供することで、大幅なパフォーマンスの向上を実現します。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair — in which the model debugs and fixes mistakes in its own code — has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4’s ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains.

arxiv情報

著者	Theo X. Olausson,Jeevana Priya Inala,Chenglong Wang,Jianfeng Gao,Armando Solar-Lezama
発行日	2023-06-22 17:55:21+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Demystifying GPT Self-Repair for Code Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー