Exploring Self-Reinforcement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models

要約

学習者ソーシングには、学生が学習リソースを生成し、同僚と共有することが含まれます。
学習者が多肢選択式の質問を作成する場合、生成された質問の説明を作成することは、関連する概念をより深く理解できるようになるため、重要なステップとなります。
しかし、主題の理解が限られており、問題の要点、気が散る要素、正解を単に言い直す傾向があるため、学生が効果的な説明を作成するのは難しいことがよくあります。
このタスクの足場を築くのに役立つように、この研究では、説明を自動的に生成して評価することを目的とした、自己強化型の大規模言語モデル フレームワークを提案します。
このフレームワークは 3 つのモジュールで構成され、学生に合わせた説明を生成し、これらの説明を評価して品質を確保し、繰り返し説明を強化します。
説明の評価スコアが定義されたしきい値を下回る場合、フレームワークは繰り返し説明を改良し、再評価します。
重要なのは、私たちのフレームワークは、生徒が該当する学年レベルで説明を作成する方法をエミュレートしていることです。
評価のために、人間の主題の専門家に、学生が生成した説明と、オープンソースの大規模言語モデル Vicuna-13B (Vicuna-13B のバージョンであり、私たちの手法を使用して微調整されたバージョン) によって作成された説明とを比較してもらいました。
GPT-4による。
他の大規模な言語モデルと比較した場合、GPT-4 は説明の生成において高いレベルの創造性を示したことが観察されました。
また、GPT-4 によって生成された説明は、人間の専門家によって、他のモデルによって作成された説明や学生が作成したオリジナルの説明よりも上位にランク付けされていることもわかりました。
私たちの調査結果は、学生の学習者調達エクスペリエンスを充実させ、教育アプリケーションにおける大規模な言語モデルの機能を強化するという点で大きな進歩を示しています。

要約(オリジナル)

Learnersourcing involves students generating and sharing learning resources with their peers. When learnersourcing multiple-choice questions, creating explanations for the generated questions is a crucial step as it facilitates a deeper understanding of the related concepts. However, it is often difficult for students to craft effective explanations due to limited subject understanding and a tendency to merely restate the question stem, distractors, and correct answer. To help scaffold this task, in this work we propose a self-reinforcement large-language-model framework, with the goal of generating and evaluating explanations automatically. Comprising three modules, the framework generates student-aligned explanations, evaluates these explanations to ensure their quality and iteratively enhances the explanations. If an explanation’s evaluation score falls below a defined threshold, the framework iteratively refines and reassesses the explanation. Importantly, our framework emulates the manner in which students compose explanations at the relevant grade level. For evaluation, we had a human subject-matter expert compare the explanations generated by students with the explanations created by the open-source large language model Vicuna-13B, a version of Vicuna-13B that had been fine-tuned using our method, and by GPT-4. We observed that, when compared to other large language models, GPT-4 exhibited a higher level of creativity in generating explanations. We also found that explanations generated by GPT-4 were ranked higher by the human expert than both those created by the other models and the original student-created explanations. Our findings represent a significant advancement in enriching the learnersourcing experience for students and enhancing the capabilities of large language models in educational applications.

arxiv情報

著者 Qiming Bao,Juho Leinonen,Alex Yuxuan Peng,Wanjun Zhong,Tim Pistotti,Alice Huang,Paul Denny,Michael Witbrock,Jiamou Liu
発行日 2023-09-19 09:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク