A Large Language Model Approach to Educational Survey Feedback Analysis

要約

このペーパーでは、教育フィードバック調査から洞察を得るのに役立つ大規模言語モデル (LLM) GPT-4 および GPT-3.5 の可能性を評価します。
教育における LLM のユースケースの探索は、教育と学習に重点が置かれており、教育フィードバック分析の機能の探索はあまり行われていません。
教育におけるアンケート分析には、カリキュラムのギャップの発見や教師の評価などの目標が含まれており、多くの場合、時間のかかるテキスト回答の手動処理が必要になります。
LLM には、特殊な機械学習モデルや微調整を必要とせずに、これらの目標を達成する柔軟な手段を提供できる可能性があります。
このような目標を、分類 (マルチラベル、マルチクラス、バイナリ)、抽出、テーマ分析、センチメント分析などの一連の自然言語処理 (NLP) タスクとして扱うことで、そのような目標に対する多用途のアプローチを実証します。これらのタスクはそれぞれ LLM によって実行されます。
これらのワークフローを、生物医学コースからの 2500 件のコース終了調査コメントからなる現実世界のデータセットに適用し、教育設定を反映して、すべてのタスクにわたってゼロショット アプローチ (例やラベル付きトレーニング データを必要としない) を評価します。
ラベル付きデータが不足していることがよくあります。
効果的なプロンプトの実践を適用することで、GPT-4 を使用して複数のタスクで人間レベルのパフォーマンスを実現し、一般的な目標を達成するために必要なワークフローを可能にします。
また、LLM の思考連鎖 (CoT) 推論を検査して、実践における自信を育む可能性のある洞察を提供する可能性も示します。
さらに、この研究では、さまざまな種類のコース (オンライン、ハイブリッド、または対面) に適し、カスタマイズに対応できる、汎用性の高い一連の分類カテゴリの開発が特徴です。
私たちの結果は、LLM を使用して調査テキストからさまざまな洞察を導き出せることを示唆しています。

要約(オリジナル)

This paper assesses the potential for the large language models (LLMs) GPT-4 and GPT-3.5 to aid in deriving insight from education feedback surveys. Exploration of LLM use cases in education has focused on teaching and learning, with less exploration of capabilities in education feedback analysis. Survey analysis in education involves goals such as finding gaps in curricula or evaluating teachers, often requiring time-consuming manual processing of textual responses. LLMs have the potential to provide a flexible means of achieving these goals without specialized machine learning models or fine-tuning. We demonstrate a versatile approach to such goals by treating them as sequences of natural language processing (NLP) tasks including classification (multi-label, multi-class, and binary), extraction, thematic analysis, and sentiment analysis, each performed by LLM. We apply these workflows to a real-world dataset of 2500 end-of-course survey comments from biomedical science courses, and evaluate a zero-shot approach (i.e., requiring no examples or labeled training data) across all tasks, reflecting education settings, where labeled data is often scarce. By applying effective prompting practices, we achieve human-level performance on multiple tasks with GPT-4, enabling workflows necessary to achieve typical goals. We also show the potential of inspecting LLMs’ chain-of-thought (CoT) reasoning for providing insight that may foster confidence in practice. Moreover, this study features development of a versatile set of classification categories, suitable for various course types (online, hybrid, or in-person) and amenable to customization. Our results suggest that LLMs can be used to derive a range of insights from survey text.

arxiv情報

著者 Michael J. Parker,Caitlin Anderson,Claire Stone,YeaRim Oh
発行日 2023-09-29 17:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク