Exploring the Responses of Large Language Models to Beginner Programmers’ Help Requests

要約

背景と背景: 過去 1 年間、大規模言語モデル (LLM) が世界を席巻しました。
コンピューティング教育においても、他の分野と同様に、その結​​果として多くの機会と脅威が生じています。
目的: この記事では、学生プログラマーのヘルプ リクエストへの対応という特定の分野におけるそのような機会と脅威について検討します。
より具体的には、学生がヘルプを要求した問題のあるコードの問題を LLM がどの程度特定できるかを評価します。
方法: オンライン プログラミング コースからヘルプ リクエストとコードのサンプルを収集しました。
次に、2 つの異なる LLM (OpenAI Codex と GPT-3.5) に生徒のコードの問題を特定して説明するよう促し、LLM によって生成された回答を定量的および定性的に評価しました。
調査結果: GPT-3.5 は、ほとんどの点で Codex よりも優れています。
どちらの LLM も、各学生プログラムで少なくとも 1 つの実際の問題を頻繁に発見します (90% のケースで GPT-3.5)。
どちらの LLM も、すべての問題を見つけるのが得意ではありません (GPT-3.5 は 57% の確率で問題を見つけます)。
偽陽性はよくあります (GPT-3.5 の確率は 40%)。
LLM が問題に関して提供するアドバイスは、多くの場合賢明です。
LLM は、出力フォーマットよりも、プログラム ロジックに関連する問題でより優れたパフォーマンスを発揮します。
LLM が提供しないように求められた場合でも、モデル ソリューションが提供されることがよくあります。
英語以外の言語でのプロンプトに対する LLM の応答は、英語のプロンプトに対する応答よりもわずかに悪いだけです。
示唆: 私たちの結果は、プログラミング教育における LLM の有用性を引き続き強調しています。
同時に、この結果は LLM の信頼性の低さを浮き彫りにしています。LLM は、特に自動評価システムの要求に応じて出力をフォーマットするときに、学生と同じ間違いをいくつか犯します。
私たちの調査は、LLM の使用に興味がある教師、およびプログラミング教育のニーズに合わせて LLM をカスタマイズする将来の取り組みについて情報を提供します。

要約(オリジナル)

Background and Context: Over the past year, large language models (LLMs) have taken the world by storm. In computing education, like in other walks of life, many opportunities and threats have emerged as a consequence. Objectives: In this article, we explore such opportunities and threats in a specific area: responding to student programmers’ help requests. More specifically, we assess how good LLMs are at identifying issues in problematic code that students request help on. Method: We collected a sample of help requests and code from an online programming course. We then prompted two different LLMs (OpenAI Codex and GPT-3.5) to identify and explain the issues in the students’ code and assessed the LLM-generated answers both quantitatively and qualitatively. Findings: GPT-3.5 outperforms Codex in most respects. Both LLMs frequently find at least one actual issue in each student program (GPT-3.5 in 90% of the cases). Neither LLM excels at finding all the issues (GPT-3.5 finding them 57% of the time). False positives are common (40% chance for GPT-3.5). The advice that the LLMs provide on the issues is often sensible. The LLMs perform better on issues involving program logic rather than on output formatting. Model solutions are frequently provided even when the LLM is prompted not to. LLM responses to prompts in a non-English language are only slightly worse than responses to English prompts. Implications: Our results continue to highlight the utility of LLMs in programming education. At the same time, the results highlight the unreliability of LLMs: LLMs make some of the same mistakes that students do, perhaps especially when formatting output as required by automated assessment systems. Our study informs teachers interested in using LLMs as well as future efforts to customize LLMs for the needs of programming education.

arxiv情報

著者 Arto Hellas,Juho Leinonen,Sami Sarsa,Charles Koutcheme,Lilja Kujanpää,Juha Sorva
発行日 2023-06-09 07:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.SE パーマリンク