Assessing the Quality of Multiple-Choice Questions Using GPT-4 and Rule-Based Methods

要約

項目記述に不備がある多肢選択式の質問は、生徒の学習に悪影響を及ぼし、分析を歪める可能性があります。
これらの欠陥は学生が作成した質問にしばしば存在するため、質問の品質と教室での使用への適合性を評価することが困難になります。
多肢選択問題を評価するための既存の方法は、多くの場合、コース教材内での使用目的や教育的意味を考慮せずに、機械可読性の指標に焦点を当てています。
この研究では、19 の一般的な項目記述の欠陥に基づいて多肢選択式の質問を自動的に評価するタスクについて、GPT-4 を利用した機械学習ベースの方法と開発したルールベースの方法のパフォーマンスを比較しました。
4 つの異なる主題分野から学生が作成した 200 の質問を分析したところ、ヒューマン アノテーターによって特定された欠陥の 91% が、GPT-4 では 79% であったのに対し、ルールベースの手法では正しく検出されたことがわかりました。
私たちは、さまざまな主題分野にわたって生徒が作成した質問に存在する共通の項目記述上の欠陥を特定する上で、2 つの方法の有効性を実証しました。
ルールベースの方法は、複数の分野からの多肢選択式の質問を正確かつ効率的に評価でき、GPT-4 を上回り、そのような質問の教育的利用を考慮していない既存の指標を超えています。
最後に、特定された欠陥に基づいて、これらの自動化された方法を使用して質問の質を向上させる可能性について説明します。

要約(オリジナル)

Multiple-choice questions with item-writing flaws can negatively impact student learning and skew analytics. These flaws are often present in student-generated questions, making it difficult to assess their quality and suitability for classroom usage. Existing methods for evaluating multiple-choice questions often focus on machine readability metrics, without considering their intended use within course materials and their pedagogical implications. In this study, we compared the performance of a rule-based method we developed to a machine-learning based method utilizing GPT-4 for the task of automatically assessing multiple-choice questions based on 19 common item-writing flaws. By analyzing 200 student-generated questions from four different subject areas, we found that the rule-based method correctly detected 91% of the flaws identified by human annotators, as compared to 79% by GPT-4. We demonstrated the effectiveness of the two methods in identifying common item-writing flaws present in the student-generated questions across different subject areas. The rule-based method can accurately and efficiently evaluate multiple-choice questions from multiple domains, outperforming GPT-4 and going beyond existing metrics that do not account for the educational use of such questions. Finally, we discuss the potential for using these automated methods to improve the quality of questions based on the identified flaws.

arxiv情報

著者 Steven Moore,Huy A. Nguyen,Tianying Chen,John Stamper
発行日 2023-07-16 22:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク