Learning gain differences between ChatGPT and human tutor generated algebra hints

要約

ChatGPT などの大規模言語モデル (LLM) は、AI を実際の消費者使用の最前線に急速に進め、業界をリードして、コンテンツ制作のためのリソースの割り当て方法を再評価しています。
アダプティブ チュータリング システム内でのオープンな教育リソースとヒント コンテンツのオーサリングは、労働集約的です。
ChatGPT のような LLM が、人間が作成したコンテンツと同等の教育コンテンツを作成する場合、その影響は、コンピューターの個別指導システム アプローチのさらなるスケーリングにとって重要です。
この論文では、初級代数と中級代数の 2 つの代数トピック領域にわたって 77 人の参加者がいる人間のチューターによって作成されたヒントとヒントの有効性を比較することにより、ChatGPT の最初の学習ゲイン評価を行います。
ChatGPT によって生成されたヒントの 70% が手動の品質チェックに合格し、人間と ChatGPT の両方の条件がプラスの学習効果をもたらしたことがわかりました。
ただし、ゲインは、人間の家庭教師が作成したヒントに対してのみ統計的に有意でした.
人間が作成したヒントからの学習効果は、両方のトピック領域で ChatGPT ヒントよりも実質的かつ統計的に有意に高かったが、Intermediate Algebra 実験の ChatGPT 参加者は上限近くにあり、事前テストでコントロールを使用していなかった.
私たちの研究の限界について議論し、この分野の将来の方向性をいくつか提案します。
実験で使用された問題とヒントの内容は、再現性のために提供されています。

要約(オリジナル)

Large Language Models (LLMs), such as ChatGPT, are quickly advancing AI to the frontiers of practical consumer use and leading industries to re-evaluate how they allocate resources for content production. Authoring of open educational resources and hint content within adaptive tutoring systems is labor intensive. Should LLMs like ChatGPT produce educational content on par with human-authored content, the implications would be significant for further scaling of computer tutoring system approaches. In this paper, we conduct the first learning gain evaluation of ChatGPT by comparing the efficacy of its hints with hints authored by human tutors with 77 participants across two algebra topic areas, Elementary Algebra and Intermediate Algebra. We find that 70% of hints produced by ChatGPT passed our manual quality checks and that both human and ChatGPT conditions produced positive learning gains. However, gains were only statistically significant for human tutor created hints. Learning gains from human-created hints were substantially and statistically significantly higher than ChatGPT hints in both topic areas, though ChatGPT participants in the Intermediate Algebra experiment were near ceiling and not even with the control at pre-test. We discuss the limitations of our study and suggest several future directions for the field. Problem and hint content used in the experiment is provided for replicability.

arxiv情報

著者 Zachary A. Pardos,Shreya Bhandari
発行日 2023-02-14 07:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC パーマリンク