要約
教育学的に適切で関連性があり、学習を促進する質問を作成することは、教育者にとって困難で時間のかかる作業です。
最新の大規模言語モデル (LLM) は、複数のドメインにわたって高品質のコンテンツを生成し、教育者が質の高い質問を作成するのに役立つ可能性があります。
自動教育質問生成 (AEQG) は、多様な学生集団に対応するオンライン教育を拡大する上で重要です。
AEQG における過去の試みでは、より高い認知レベルで質問を生成する能力が限られていることが判明しました。
この研究では、ブルームの分類法で定義されている、さまざまな認知レベルの多様で質の高い質問を生成する、さまざまなサイズの 5 つの最先端の LLM の能力を検証します。
AEQG では、さまざまな複雑さを持つ高度なプロンプト技術を使用しています。
私たちは専門家と LLM ベースの評価を実施し、言語学的および教育学的関連性と質問の質を評価しました。
私たちの調査結果は、検討した 5 つの LLms のパフォーマンスには大きなばらつきがあるものの、LLms は適切な情報を与えられた場合に、さまざまな認知レベルの適切で質の高い教育的な質問を生成できることを示唆しています。
また、自動評価は人間による評価と同等ではないことも示します。
要約(オリジナル)
Developing questions that are pedagogically sound, relevant, and promote learning is a challenging and time-consuming task for educators. Modern-day large language models (LLMs) generate high-quality content across multiple domains, potentially helping educators to develop high-quality questions. Automated educational question generation (AEQG) is important in scaling online education catering to a diverse student population. Past attempts at AEQG have shown limited abilities to generate questions at higher cognitive levels. In this study, we examine the ability of five state-of-the-art LLMs of different sizes to generate diverse and high-quality questions of different cognitive levels, as defined by Bloom’s taxonomy. We use advanced prompting techniques with varying complexity for AEQG. We conducted expert and LLM-based evaluations to assess the linguistic and pedagogical relevance and quality of the questions. Our findings suggest that LLms can generate relevant and high-quality educational questions of different cognitive levels when prompted with adequate information, although there is a significant variance in the performance of the five LLms considered. We also show that automated evaluation is not on par with human evaluation.
arxiv情報
著者 | Nicy Scaria,Suma Dharani Chenna,Deepak Subramani |
発行日 | 2024-08-08 11:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google