Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?

要約

中等後レベルの入門および中級の Python プログラミング コースで評価に合格するために、ジェネレーティブ トレーニング済みトランスフォーマー (GPT) の機能を評価しました。
プログラミング教育におけるこの新興技術の潜在的な用途 (例: 演習の生成、コードの説明) と誤用 (例: チート) についての議論が激化していますが、これまでのところ、現実的なコンテキストにおけるモデルの機能の厳密な分析は行われていません。
さまざまな評価ツールを備えた本格的なプログラミング コースです。
単純な多肢選択問題 (コードは関係ありません) から、複数のファイルに分散されたコード ベースを使用する複雑なプログラミング プロジェクト (全体で 599 の演習) まで、さまざまな評価を使用する 3 つの Python コースで GPT を評価しました。
さらに、GPT モデルがオートグレーダーから提供されたフィードバックをうまく活用しているかどうか、またどのようにうまく活用しているかを調査しました。
現在のモデルでは、通常 Python プログラミング コースに含まれる全範囲の評価に合格できないことがわかりました (入門レベルのモジュールでも 70% 未満)。
それでも、これらの簡単にアクセスできるモデルを直接適用することで、学習者は入門コースと中級コースの両方で利用可能なスコア全体の重要な部分 (>55%) を取得できることは明らかです。
モデルは、自動採点者のフィードバックに基づいてソリューションを修正するなど、優れた機能を発揮しますが、いくつかの制限が存在します (たとえば、複雑な一連の推論ステップを必要とする演習の処理が不十分です)。
これらの調査結果は、エンドツーエンドのソリューションではなく、GPT が学習者にとって貴重なアシスタントになるように、評価を調整したいインストラクターによって活用できます。

要約(オリジナル)

We evaluated the capability of generative pre-trained transformers (GPT), to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. Discussions of potential uses (e.g., exercise generation, code explanation) and misuses (e.g., cheating) of this emerging technology in programming education have intensified, but to date there has not been a rigorous analysis of the models’ capabilities in the realistic context of a full-fledged programming course with diverse set of assessment instruments. We evaluated GPT on three Python courses that employ assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Further, we studied if and how successfully GPT models leverage feedback provided by an auto-grader. We found that the current models are not capable of passing the full spectrum of assessments typically involved in a Python programming course (<70% on even entry-level modules). Yet, it is clear that a straightforward application of these easily accessible models could enable a learner to obtain a non-trivial portion of the overall available score (>55%) in introductory and intermediate courses alike. While the models exhibit remarkable capabilities, including correcting solutions based on auto-grader’s feedback, some limitations exist (e.g., poor handling of exercises requiring complex chains of reasoning steps). These findings can be leveraged by instructors wishing to adapt their assessments so that GPT becomes a valuable assistant for a learner as opposed to an end-to-end solution.

arxiv情報

著者 Jaromir Savelka,Arav Agarwal,Christopher Bogart,Yifan Song,Majd Sakr
発行日 2023-03-16 13:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク