Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant

要約

1:1の学生と教師の比率を達成するという夢は、大規模な言語モデル(LLM)の出現により、これまで以上に近いです。
教育分野でのこれらのモデルの潜在的な適用の1つは、大学の入門プログラミングコースの学生にフィードバックを提供することです。そのため、基本的な実装の問題を解決するのに苦労している学生は、24時間年中無休で利用可能なLLMから助けを求めることができます。
この記事では、このようなアプリケーションに関連する3つの側面の研究に焦点を当てています。
まず、学生にフィードバックを提供する2つの有名なモデル、GPT-3.5TとGPT-4Tのパフォーマンスが評価されます。
経験的結果は、GPT-4TがGPT-3.5Tよりもはるかに優れていることを示しましたが、実際のシナリオではまだ使用できないことがわかりました。
これは、潜在的なユーザーが常に検出できるとは限らないという誤った情報を生成する可能性があるためです。
第二に、この記事では、評価プロセスの重要な部分を自動化できるコンテキスト学習手法を使用して、慎重に設計されたプロンプトを提案し、間違った情報を含むフィードバックの割合、時間と労力を節約するための下限を提供します。
これは、結果のフィードバックが、要求されたタスクの解決におけるLLMのパフォーマンスに関する診断情報を組み込んだプログラムで分析可能な構造を持っているため、可能でした。
第三に、この記事では、提案されたプロンプト技術に根ざしたLLMSに基づいた実用的な学習ツールを実装するための可能な戦略も示唆しています。
この戦略は、教育的な観点からさまざまな興味深い可能性を開きます。

要約(オリジナル)

The dream of achieving a student-teacher ratio of 1:1 is closer than ever thanks to the emergence of large language models (LLMs). One potential application of these models in the educational field would be to provide feedback to students in university introductory programming courses, so that a student struggling to solve a basic implementation problem could seek help from an LLM available 24/7. This article focuses on studying three aspects related to such an application. First, the performance of two well-known models, GPT-3.5T and GPT-4T, in providing feedback to students is evaluated. The empirical results showed that GPT-4T performs much better than GPT-3.5T, however, it is not yet ready for use in a real-world scenario. This is due to the possibility of generating incorrect information that potential users may not always be able to detect. Second, the article proposes a carefully designed prompt using in-context learning techniques that allows automating important parts of the evaluation process, as well as providing a lower bound for the fraction of feedbacks containing incorrect information, saving time and effort. This was possible because the resulting feedback has a programmatically analyzable structure that incorporates diagnostic information about the LLM’s performance in solving the requested task. Third, the article also suggests a possible strategy for implementing a practical learning tool based on LLMs, which is rooted on the proposed prompting techniques. This strategy opens up a whole range of interesting possibilities from a pedagogical perspective.

arxiv情報

著者 Marc Ballestero-Ribó,Daniel Ortiz-Martínez
発行日 2025-04-18 10:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク