要約
高品質の注意散漫要素は、多肢選択問題 (MCQ) の評価と教育的価値の両方にとって非常に重要です。MCQ では、実際の生徒の知識不足や誤解を予測した質問を手動で作成するのは困難です。
一方、数学などの科目では、たとえ大規模言語モデル (LLM) の助けを借りたとしても、気晴らしの自動生成は依然として困難です。
もっともらしい注意をそらすものを特定するだけでなく、その背後にある間違いを理解することが重要です。
この論文では、数学 MCQ のディストラクタの背後にあるエラーの解釈可能な表現を学習する新しい変分アプローチである DiVERT (ディストラクタ生成、変分エラーをテキストとして表現) を紹介します。
何十万人もの学生が使用した 1,434 問を含む現実世界の数学 MCQ データセットでの実験を通じて、DiVERT は 7B パラメータの基本的なオープンソース LLM を使用しているにもかかわらず、GPT を使用した最先端のアプローチよりも優れたパフォーマンスを発揮することを示しました。
下流のディストラクタの生成に関する 4o。
また、数学教育者による人間による評価も実施し、DiVERT によって人間が作成したエラー ラベルと同等の品質のエラー ラベルが生成されることがわかりました。
要約(オリジナル)
High-quality distractors are crucial to both the assessment and pedagogical value of multiple-choice questions (MCQs), where manually crafting ones that anticipate knowledge deficiencies or misconceptions among real students is difficult. Meanwhile, automated distractor generation, even with the help of large language models (LLMs), remains challenging for subjects like math. It is crucial to not only identify plausible distractors but also understand the error behind them. In this paper, we introduce DiVERT (Distractor Generation with Variational Errors Represented as Text), a novel variational approach that learns an interpretable representation of errors behind distractors in math MCQs. Through experiments on a real-world math MCQ dataset with 1,434 questions used by hundreds of thousands of students, we show that DiVERT, despite using a base open-source LLM with 7B parameters, outperforms state-of-the-art approaches using GPT-4o on downstream distractor generation. We also conduct a human evaluation with math educators and find that DiVERT leads to error labels that are of comparable quality to human-authored ones.
arxiv情報
著者 | Nigel Fernandez,Alexander Scarlatos,Simon Woodhead,Andrew Lan |
発行日 | 2024-06-27 17:37:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google