Assessing Student Errors in Experimentation Using Artificial Intelligence and Large Language Models: A Comparative Study with Human Raters

要約

学生の実験プロトコルのような、複雑で不完全、さらには矛盾した全体的に異種データの論理エラーを特定することは困難です。
現在の評価方法の限界を認識し、学生の間違いを自動的に特定し、教師の評価を合理化するための大規模言語モデル (LLM) の可能性を調査します。
私たちの目的は、生産的でパーソナライズされたフィードバックの基盤を提供することです。
65 の学生プロトコルのデータセットを使用して、GPT-3.5 および GPT-4 シリーズに基づく人工知能 (AI) システムが開発され、人間の評価者に対してテストされました。
私たちの結果は、AI システムと人間の評価者の間でエラー検出の精度が異なることを示しています。
AI システムは、多くの基本的な生徒のエラーを正確に特定できます。たとえば、AI システムは、生徒が従属変数ではなく予想される観測値 (acc. = 0.90) のみに仮説を集中させているときや、生徒が試験を変更したときを特定します。
進行中の調査 (acc. = 1)、および学生が有効なテスト試験を確実に実施しているかどうか (acc. = 0.82)。
学生が有効な対照試験を実施しているかどうか (acc. = 0.60) など、他の、通常はより複雑なエラーを特定することは、より大きな課題となります。
この研究は、教育現場における AI の有用性を探求するだけでなく、実験などの探究学習におけるエラー検出における LLM の機能の理解にも貢献します。

要約(オリジナル)

Identifying logical errors in complex, incomplete or even contradictory and overall heterogeneous data like students’ experimentation protocols is challenging. Recognizing the limitations of current evaluation methods, we investigate the potential of Large Language Models (LLMs) for automatically identifying student errors and streamlining teacher assessments. Our aim is to provide a foundation for productive, personalized feedback. Using a dataset of 65 student protocols, an Artificial Intelligence (AI) system based on the GPT-3.5 and GPT-4 series was developed and tested against human raters. Our results indicate varying levels of accuracy in error detection between the AI system and human raters. The AI system can accurately identify many fundamental student errors, for instance, the AI system identifies when a student is focusing the hypothesis not on the dependent variable but solely on an expected observation (acc. = 0.90), when a student modifies the trials in an ongoing investigation (acc. = 1), and whether a student is conducting valid test trials (acc. = 0.82) reliably. The identification of other, usually more complex errors, like whether a student conducts a valid control trial (acc. = .60), poses a greater challenge. This research explores not only the utility of AI in educational settings, but also contributes to the understanding of the capabilities of LLMs in error detection in inquiry-based learning like experimentation.

arxiv情報

著者 Arne Bewersdorff,Kathrin Seßler,Armin Baur,Enkelejda Kasneci,Claudia Nerdel
発行日 2023-08-11 12:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク