Assessing Distractors in Multiple-Choice Tests

要約

多肢選択式テストは、受験者の理解力を評価するための一般的なアプローチです。
標準的な多肢選択式の読解試験では、受験者は文脈に沿った文章に関連した質問に基づいて、個別のセットから正解の選択肢を選択する必要があります。
適切な評価を行うには、注意をそらすための回答オプションは、定義上、不正確ではあるものの、もっともらしく、多様なものでなければなりません。
ただし、コンテンツ作成者にとって、これらの基準を満たす高品質のディストラクターを生成することは困難な作業です。
私たちは、多肢選択式読解テストにおける注意散漫の質に関する自動評価指標を提案します。
具体的には、気を散らす選択肢の不正確さ、妥当性、多様性という観点から品質を定義します。
二項多肢選択読解システムの分類能力を利用して不正解を評価します。
妥当性は、標準的なマルチクラス多肢選択読解システムの注意散漫オプションに関連付けられた確率質量である注意散漫の信頼度を考慮することによって評価されます。
多様性は、質問の注意をそらす要素間の埋め込みベースの等価性メトリックをペアごとに比較することによって評価されます。
もっともらしさのメトリクスをさらに検証するために、多肢選択式の質問における候補者の分布と比較し、ChatGPT モデルのディストラクタのもっともらしさと多様性の解釈と一致します。

要約(オリジナル)

Multiple-choice tests are a common approach for assessing candidates’ comprehension skills. Standard multiple-choice reading comprehension exams require candidates to select the correct answer option from a discrete set based on a question in relation to a contextual passage. For appropriate assessment, the distractor answer options must by definition be incorrect but plausible and diverse. However, generating good quality distractors satisfying these criteria is a challenging task for content creators. We propose automated assessment metrics for the quality of distractors in multiple-choice reading comprehension tests. Specifically, we define quality in terms of the incorrectness, plausibility and diversity of the distractor options. We assess incorrectness using the classification ability of a binary multiple-choice reading comprehension system. Plausibility is assessed by considering the distractor confidence – the probability mass associated with the distractor options for a standard multi-class multiple-choice reading comprehension system. Diversity is assessed by pairwise comparison of an embedding-based equivalence metric between the distractors of a question. To further validate the plausibility metric we compare against candidate distributions over multiple-choice questions and agreement with a ChatGPT model’s interpretation of distractor plausibility and diversity.

arxiv情報

著者 Vatsal Raina,Adian Liusie,Mark Gales
発行日 2023-11-08 09:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク