要約
NCERT 教科書からゼロショット モードで教育用の質問を生成する GPT-4 Turbo の有効性を評価します。
私たちの研究は、特にブルームの改訂分類法による「理解」レベルで、高次の思考スキルを必要とする質問を生成する GPT-4 Turbo の能力を強調しています。
GPT-4 Turbo によって生成された質問と、複雑さの点で人間によって評価された質問の間には顕著な一貫性が見られますが、場合によっては相違点も見られます。
私たちの評価では、人間と機械が質問の質を評価する方法にばらつきがあり、その傾向がブルームの改訂分類レベルと逆相関していることも明らかになりました。
これらの調査結果は、GPT-4 Turbo は教育的な質問を生成するための有望なツールである一方で、その有効性はさまざまな認知レベルによって異なり、教育基準を完全に満たすにはさらなる改良の必要性を示していることを示唆しています。
要約(オリジナル)
We evaluate the effectiveness of GPT-4 Turbo in generating educational questions from NCERT textbooks in zero-shot mode. Our study highlights GPT-4 Turbo’s ability to generate questions that require higher-order thinking skills, especially at the ‘understanding’ level according to Bloom’s Revised Taxonomy. While we find a notable consistency between questions generated by GPT-4 Turbo and those assessed by humans in terms of complexity, there are occasional differences. Our evaluation also uncovers variations in how humans and machines evaluate question quality, with a trend inversely related to Bloom’s Revised Taxonomy levels. These findings suggest that while GPT-4 Turbo is a promising tool for educational question generation, its efficacy varies across different cognitive levels, indicating a need for further refinement to fully meet educational standards.
arxiv情報
著者 | Subhankar Maity,Aniket Deroy,Sudeshna Sarkar |
発行日 | 2024-06-21 14:52:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google