要約
多肢選択 (MC) テストは、英語学習者を評価するための効率的な方法です。
テスト作成者にとって、試験のキュレーション中に候補 MC の質問を難易度によってランク付けするのに役立ちます。
通常、難易度は、テスト前の段階で人間の受験者に問題を試してもらうことによって決定されます。
ただし、これは高価であり、拡張性がありません。
したがって、MC の質問を難易度によってランク付けするための自動化されたアプローチを検討します。
ただし、難易度スコアのシステムを明示的にトレーニングするためのデータは限られています。
したがって、タスク転送とゼロショットアプローチを比較します。タスク転送はレベル分類と読解システムを難易度ランキングに適応させますが、指導の微調整された言語モデルのゼロショットプロンプトは絶対評価と比較評価を対比させます。
読解よりもレベル分類の方が効果が高いことが分かりました。
さらに、ゼロショット比較評価は、絶対評価よりも難易度のランク付けにおいてより効果的であり、問題の難易度のランク付けにおいても、スピアマン相関が 40.4% でタスクの移行が近づきます。
システムを組み合わせると、相関関係がさらに高まることが観察されています。
要約(オリジナル)
Multiple-choice (MC) tests are an efficient method to assess English learners. It is useful for test creators to rank candidate MC questions by difficulty during exam curation. Typically, the difficulty is determined by having human test takers trial the questions in a pretesting stage. However, this is expensive and not scalable. Therefore, we explore automated approaches to rank MC questions by difficulty. However, there is limited data for explicit training of a system for difficulty scores. Hence, we compare task transfer and zero-shot approaches: task transfer adapts level classification and reading comprehension systems for difficulty ranking while zero-shot prompting of instruction finetuned language models contrasts absolute assessment against comparative. It is found that level classification transfers better than reading comprehension. Additionally, zero-shot comparative assessment is more effective at difficulty ranking than the absolute assessment and even the task transfer approaches at question difficulty ranking with a Spearman’s correlation of 40.4%. Combining the systems is observed to further boost the correlation.
arxiv情報
著者 | Vatsal Raina,Mark Gales |
発行日 | 2024-04-16 16:23:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google