SIGHT: A Large Annotated Dataset on Student Insights Gathered from Higher Education Transcripts

要約

講義は生徒にとっても教師にとっても学習体験です。
生徒は教師から主題の内容について学び、教師は生徒から指導を改善する方法について学びます。
ただし、オンラインの生徒からのフィードバックは体系化されておらず、量が多いため、教師が学習して改善することが困難になっています。
私たちはこの課題への取り組みに向けて一歩を踏み出します。
まず、この問題を研究するためのデータセットを提供します。SIGHT は、マサチューセッツ工科大学 OpenCourseWare (MIT OCW) YouTube チャンネルから収集された 288 件の数学講義記録と 15,784 件のコメントからなる大規模なデータセットです。
次に、定性分析を使用してフィードバックの種類を分類するためのルーブリックを作成します。
定性分析手法はドメイン固有の洞察を明らかにするのに強力ですが、大規模なデータ ソースに適用するにはコストがかかります。
この課題を克服するために、大規模言語モデル (LLM) を使用してコメントを大規模に低コストで分類するための一連のベスト プラクティスを提案します。
モデルと人間のアノテーションの間には顕著な相関関係が観察されます。一貫した人間のアノテーション (>$0.9$ の評価者間信頼性、IRR) を持つカテゴリは、より高い人間モデルとモデルの一致 (>$0.7$) も示しますが、一貫性の低い人間のアノテーション (
$0.7$-$0.8$ IRR) は、それに応じて、より低いヒューマンモデル一致度 ($0.3$-$0.5$) を示しています。
これらの手法により、数千のコメントから学生の有用なフィードバックが明らかになり、コメントあたりのコストは約 $\$0.002$ になります。
最後に、オンラインの学生フィードバックの利用と、定性的研究のための自動注釈技術の改善に関する興味深い将来の方向性について説明します。

要約(オリジナル)

Lectures are a learning experience for both students and teachers. Students learn from teachers about the subject material, while teachers learn from students about how to refine their instruction. However, online student feedback is unstructured and abundant, making it challenging for teachers to learn and improve. We take a step towards tackling this challenge. First, we contribute a dataset for studying this problem: SIGHT is a large dataset of 288 math lecture transcripts and 15,784 comments collected from the Massachusetts Institute of Technology OpenCourseWare (MIT OCW) YouTube channel. Second, we develop a rubric for categorizing feedback types using qualitative analysis. Qualitative analysis methods are powerful in uncovering domain-specific insights, however they are costly to apply to large data sources. To overcome this challenge, we propose a set of best practices for using large language models (LLMs) to cheaply classify the comments at scale. We observe a striking correlation between the model’s and humans’ annotation: Categories with consistent human annotations (>$0.9$ inter-rater reliability, IRR) also display higher human-model agreement (>$0.7$), while categories with less consistent human annotations ($0.7$-$0.8$ IRR) correspondingly demonstrate lower human-model agreement ($0.3$-$0.5$). These techniques uncover useful student feedback from thousands of comments, costing around $\$0.002$ per comment. We conclude by discussing exciting future directions on using online student feedback and improving automated annotation techniques for qualitative research.

arxiv情報

著者 Rose E. Wang,Pawan Wirawarn,Noah Goodman,Dorottya Demszky
発行日 2023-06-15 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク