要約
大規模言語モデル (LLM) は、コード生成において顕著な適性を示していますが、難しいプログラミング タスクでは依然として苦戦しています。
自己修復 (モデルがデバッグしてコード自体の間違いを修正する) は、最近、これらの設定でパフォーマンスを向上させる一般的な方法となっています。
ただし、自己修復がいつどのように効果的に機能するかについての文献には非常に限られた研究しか存在せず、モデルが実際にどの程度、コードが生成されたときにそのコードが間違っているのかについて正確なフィードバックを提供できるのか疑問に思う人もいるかもしれません。
モデル。
この論文では、多様なコーディング課題で構成される挑戦的なデータセットである APPS 上で自己修復を実行する GPT-3.5 と GPT-4 の機能を分析します。
そのために、まず pass@t と呼ばれる新しい評価戦略を確立します。これは、モデルからサンプリングされたトークンの総数に対するタスクの合格率を測定し、純粋なサンプリング ベースのアプローチとの公正な比較を可能にします。
この評価戦略により、自己修復の有効性が GPT-4 でのみ見られることがわかります。
また、自己修復がフィードバック段階によってボトルネックになっていることがわかります。
GPT-4 を使用して GPT-3.5 によって生成されたプログラムにフィードバックを提供し、専門の人間のプログラマーを使用して GPT-4 によって生成されたプログラムにフィードバックを提供することで、大幅なパフォーマンスの向上を実現します。
要約(オリジナル)
Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair — in which the model debugs and fixes mistakes in its own code — has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4’s ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains.
arxiv情報
著者 | Theo X. Olausson,Jeevana Priya Inala,Chenglong Wang,Jianfeng Gao,Armando Solar-Lezama |
発行日 | 2023-06-22 17:55:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google