Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency

要約

教育テストの開発には、専門家が各項目を作成し、何百もの学生の回答を収集して評価する必要があるため、費用と時間がかかる場合があります。
さらに、多くのテストでは、並行テストとして知られる、生徒の進歩を綿密に監視するために、学年を通じて実施される複数の異なる質問セットが必要です。
この研究では、生徒の読解能力を長期的に評価するために使用される、黙読効率のテストに焦点を当てます。
高品質の並列テストを生成するために、大規模言語モデル (LLM) を微調整して、以前の学生が目に見えない項目にどのように反応したかをシミュレートすることを提案します。
これらのシミュレートされた回答を使用して、各項目の難しさと曖昧さを推定できます。
まず GPT-4 を使用して、専門家が開発したルールのリストに従って新しいテスト項目を生成し、次に微調整された LLM を適用して、心理学的測定の基準に基づいて項目をフィルター処理します。
また、並列テストを生成するための最適トランスポートにヒントを得た手法を提案し、生成されたテストがクラウドワーカーの応答に基づいて元のテストの難易度および信頼性に密接に対応していることを示します。
2 年生から 8 年生までの 234 人の生徒を対象に生成されたテストを評価したところ、人間の専門家が作成し、数千人の幼稚園から高校までの生徒を対象に評価された標準的なテスト フォームのテスト スコアと高い相関関係 (r=0.93) が得られました。

要約(オリジナル)

Developing an educational test can be expensive and time-consuming, as each item must be written by experts and then evaluated by collecting hundreds of student responses. Moreover, many tests require multiple distinct sets of questions administered throughout the school year to closely monitor students’ progress, known as parallel tests. In this study, we focus on tests of silent sentence reading efficiency, used to assess students’ reading ability over time. To generate high-quality parallel tests, we propose to fine-tune large language models (LLMs) to simulate how previous students would have responded to unseen items. With these simulated responses, we can estimate each item’s difficulty and ambiguity. We first use GPT-4 to generate new test items following a list of expert-developed rules and then apply a fine-tuned LLM to filter the items based on criteria from psychological measurements. We also propose an optimal-transport-inspired technique for generating parallel tests and show the generated tests closely correspond to the original test’s difficulty and reliability based on crowdworker responses. Our evaluation of a generated test with 234 students from grades 2 to 8 produces test scores highly correlated (r=0.93) to those of a standard test form written by human experts and evaluated across thousands of K-12 students.

arxiv情報

著者 Eric Zelikman,Wanjing Anya Ma,Jasmine E. Tran,Diyi Yang,Jason D. Yeatman,Nick Haber
発行日 2023-10-10 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク