要約
大規模な言語モデルは、コード生成において顕著な適性を示しているが、複雑なタスクを実行するのにはまだ苦労している。自己修復–モデルが自身のコードをデバッグして修復すること–は、最近、このような環境において性能を向上させるための一般的な方法となっている。しかし、セルフリペアの人気が高まっているにもかかわらず、セルフリペアに関する既存の研究は範囲が限られている。本論文では、HumanEvalとAPPSの問題を用いて、Code Llama、GPT-3.5、GPT-4の自己修復能力を分析する。その結果、修復にかかるコストを考慮した場合、性能の向上は多くの場合わずかであり、データの部分集合によって大きく異なり、時には全く見られないこともあることがわかった。これは、自己修復がモデル自身のコードに対するフィードバック能力によってボトルネックになっているためであるという仮説を立てた。同様に、GPT-4に人間の参加者からのフィードバックを提供する小規模な研究では、最も強力なモデルであっても、自己修復は人間レベルのデバッグで達成できるものにはるかに及ばないことが示唆されています。
要約(オリジナル)
Large language models have shown remarkable aptitude in code generation, but still struggle to perform complex tasks. Self-repair — in which the model debugs and repairs its own code — has recently become a popular way to boost performance in these settings. However, despite its increasing popularity, existing studies of self-repair have been limited in scope; in many settings, its efficacy thus remains poorly understood. In this paper, we analyze Code Llama, GPT-3.5 and GPT-4’s ability to perform self-repair on problems taken from HumanEval and APPS. We find that when the cost of carrying out repair is taken into account, performance gains are often modest, vary a lot between subsets of the data, and are sometimes not present at all. We hypothesize that this is because self-repair is bottlenecked by the model’s ability to provide feedback on its own code; using a stronger model to artificially boost the quality of the feedback, we observe substantially larger performance gains. Similarly, a small-scale study in which we provide GPT-4 with feedback from human participants suggests that even for the strongest models, self-repair still lags far behind what can be achieved with human-level debugging.
arxiv情報
著者 | Theo X. Olausson,Jeevana Priya Inala,Chenglong Wang,Jianfeng Gao,Armando Solar-Lezama |
発行日 | 2024-02-02 18:31:34+00:00 |
arxivサイト | arxiv_id(pdf) |