Comparison of Large Language Models for Generating Contextually Relevant Questions

要約

この研究では、教育現場における自動質問生成のための大規模言語モデル (LLM) の有効性を調査します。
3 つの LLM が、微調整せずに大学のスライド テキストから問題を作成する能力について比較されます。
質問は 2 段階のパイプラインで取得されました。まず、Llama 2-Chat 13B を使用してスライドから回答フレーズが抽出されました。
次に、3 つのモデルがそれぞれの回答に対する質問を生成しました。
質問が学生の教育用途に適しているかどうかを分析するために、46 人の学生を対象に調査が実施され、明瞭さ、関連性、難易度、スライドの関係性、質問と回答の整合性の 5 つの指標にわたって合計 246 の質問が評価されました。
結果は、特に明瞭さと質問と回答の整合性の点で、GPT-3.5 と Llama 2-Chat 13B が Flan T5 XXL よりもわずかな差で優れていることを示しています。
GPT-3.5 は、入力された回答に合わせて質問を調整することに特に優れています。
この研究の貢献は、教育における自動質問生成のための LLM の能力の分析です。

要約(オリジナル)

This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide text without fine-tuning. Questions were obtained in a two-step pipeline: first, answer phrases were extracted from slides using Llama 2-Chat 13B; then, the three models generated questions for each answer. To analyze whether the questions would be suitable in educational applications for students, a survey was conducted with 46 students who evaluated a total of 246 questions across five metrics: clarity, relevance, difficulty, slide relation, and question-answer alignment. Results indicate that GPT-3.5 and Llama 2-Chat 13B outperform Flan T5 XXL by a small margin, particularly in terms of clarity and question-answer alignment. GPT-3.5 especially excels at tailoring questions to match the input answers. The contribution of this research is the analysis of the capacity of LLMs for Automatic Question Generation in education.

arxiv情報

著者 Ivo Lodovico Molina,Valdemar Švábenský,Tsubasa Minematsu,Li Chen,Fumiya Okubo,Atsushi Shimada
発行日 2024-07-30 06:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, K.3 パーマリンク