StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code

要約

Code LLM は急速に導入されており、プロのプログラマーの生産性を向上させることができるという証拠があります。
コード生成の現在のベンチマークは、専門家のプロンプトが与えられた場合にモデルが正しいプログラムを生成するかどうかを測定します。
このペーパーでは、専門家ではないプロンプタの特定の集団、つまり初心者プログラマによって作成された、問題ごとに複数のプロンプトを含む新しいベンチマークを紹介します。
StudentEval には、Python プログラミングを 1 学期だけ終えたばかりの 80 人の学生によって作成された、48 の問題に対する 1,749 のプロンプトが含​​まれています。
私たちの学生は、Code LLM を対話的に操作しながらこれらのプロンプトを作成しましたが、成功率は非常にまちまちでした。
StudentEval を使用して 5 つのコード LLM を評価したところ、StudentEval が既存のベンチマークよりもモデルのパフォーマンスを識別するのに優れていることがわかりました。
私たちはプロンプトを分析し、生徒のプロンプト手法に大きなばらつきがあることを発見しました。
また、非決定的な LLM サンプリングは、生徒のプロンプトが実際より効果的である (または低い) と誤解させる可能性があり、これが Code LLM を使用した指導方法に影響を与える可能性があることもわかりました。

要約(オリジナル)

Code LLMs are being rapidly deployed and there is evidence that they can make professional programmers more productive. Current benchmarks for code generation measure whether models generate correct programs given an expert prompt. In this paper, we present a new benchmark containing multiple prompts per problem, written by a specific population of non-expert prompters: beginning programmers. StudentEval contains 1,749 prompts for 48 problems, written by 80 students who have only completed one semester of Python programming. Our students wrote these prompts while working interactively with a Code LLM, and we observed very mixed success rates. We use StudentEval to evaluate 5 Code LLMs and find that StudentEval is a better discriminator of model performance than existing benchmarks. We analyze the prompts and find significant variation in students’ prompting techniques. We also find that nondeterministic LLM sampling could mislead students into thinking that their prompts are more (or less) effective than they actually are, which has implications for how to teach with Code LLMs.

arxiv情報

著者 Hannah McLean Babe,Sydney Nguyen,Yangtian Zi,Arjun Guha,Molly Q Feldman,Carolyn Jane Anderson
発行日 2023-06-07 16:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG パーマリンク