Large Language Models As MOOCs Graders

要約

大規模公開オンライン講座(MOOC)は、コンピュータとインターネットにアクセスできる世界中の誰でもが無料で教育を受けられるようにするものである。このように学習が民主化されているにもかかわらず、これらのコースには大量の受講生がいるため、一人の講師がすべての受講生のライティング課題を評価することはほとんど不可能である。その結果、相互採点(多くの場合、わかりやすいルーブリックによって導かれる)が選択される方法となっている。ピアグレーディングは便利ではあるが、信頼性と妥当性の点で不十分なことが多い。この研究では、18の異なる設定を使用して、MOOCにおける相互評定を置き換えるために大規模言語モデル(LLM)を活用することの実現可能性を探ります。具体的には、2つの最先端のLLMに焦点を当てる:GPT-4とGPT-3.5である:入門天文学、宇宙生物学、天文学の歴史と哲学である。LLMを指導するために、ゼロショット思考連鎖(Zero-shot-CoT)プロンプト技法の変種に基づく3つの異なるプロンプトを使用する:Zero-shot-CoTとインストラクターが提示した正解との組み合わせ、Zero-shot-CoTとインストラクターが作成した解答とルーブリックとの組み合わせ、Zero-shot-CoTとインストラクターが提示した正解とLLMが作成したルーブリックとの組み合わせである。その結果、Zero-shot-CoTは、教員が提示した解答とルーブリックと統合された場合、相互評定と比較して、教員が割り当てた評定とより一致した評定を生成することが示された。しかし、天文学の歴史と哲学のコースは、他のコースとは対照的に、成績評価の点でより困難であることが判明した。最後に、我々の研究は、特にルーブリックが明確に定義されている科目において、MOOCの採点システムを自動化するための有望な方向性を明らかにした。

要約(オリジナル)

Massive open online courses (MOOCs) unlock the doors to free education for anyone around the globe with access to a computer and the internet. Despite this democratization of learning, the massive enrollment in these courses means it is almost impossible for one instructor to assess every student’s writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, using 18 distinct settings, we explore the feasibility of leveraging large language models (LLMs) to replace peer grading in MOOCs. Specifically, we focus on two state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on a variant of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique: Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT in conjunction with both instructor-formulated answers and rubrics; and Zero-shot-CoT with instructor-offered correct answers and LLM-generated rubrics. Our results show that Zero-shot-CoT, when integrated with instructor-provided answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. However, the History and Philosophy of Astronomy course proves to be more challenging in terms of grading as opposed to other courses. Finally, our study reveals a promising direction for automating grading systems for MOOCs, especially in subjects with well-defined rubrics.

arxiv情報

著者 Shahriar Golchin,Nikhil Garuda,Christopher Impey,Matthew Wenger
発行日 2024-03-01 04:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク