要約
自動説明フィードバック システムは、説明を組み込んだフィードバックを提供することで、大規模な学習者の学習を促進する上で重要な役割を果たし、学習プロセスを大幅に強化します。
ただし、このような説明的なフィードバックをリアルタイムで配信することは、特にドメイン固有の微妙な応答に対する高い分類精度が不可欠な場合に課題が生じます。
私たちの研究では、大規模な言語モデル、特に生成事前トレーニング変換器 (GPT) の機能を活用して、家庭教師のトレーニング データセット内で説明的なフィードバックを提供するために望ましい褒め言葉とあまり望ましくない褒め言葉の構成要素を特定することに重点を置いたシーケンス ラベリング アプローチを検討しています。
私たちの目的は、オンライン トレーニング レッスン中に講師に実用的で説明的なフィードバックを提供することです。
説明的なフィードバックを提供するための GPT モデルの可能性を調査するために、プロンプトと微調整という 2 つの一般的に使用されるアプローチを採用しました。
GPT モデルによって特定される強調表示された賞賛コンポーネントの品質を定量化するために、Modified Intersection over Union (M-IoU) スコアを導入しました。
我々の調査結果は、(1) M-IoU スコアは配列の品質を評価する際の人間の判断と効果的に相関していることを示しています。
(2) GPT-3.5 でツーショット プロンプトを使用すると、努力ベースの賞賛 (M-IoU 0.46) と結果ベースの賞賛 (M-IoU 0.68) の認識においてまともなパフォーマンスが得られました。
(3) 最適に微調整された GPT-3.5 モデルは、努力ベースの賞賛で 0.64、結果ベースの賞賛で 0.84 の M-IoU スコアを達成し、人間のプログラマーによって評価された満足度レベルと一致しました。
私たちの結果は、GPT モデルを使用して、自由回答の中で望ましい、または改善が必要な特定の要素に焦点を当てたフィードバックを提供できることを示しています。
要約(オリジナル)
Automated explanatory feedback systems play a crucial role in facilitating learning for a large cohort of learners by offering feedback that incorporates explanations, significantly enhancing the learning process. However, delivering such explanatory feedback in real-time poses challenges, particularly when high classification accuracy for domain-specific, nuanced responses is essential. Our study leverages the capabilities of large language models, specifically Generative Pre-Trained Transformers (GPT), to explore a sequence labeling approach focused on identifying components of desired and less desired praise for providing explanatory feedback within a tutor training dataset. Our aim is to equip tutors with actionable, explanatory feedback during online training lessons. To investigate the potential of GPT models for providing the explanatory feedback, we employed two commonly-used approaches: prompting and fine-tuning. To quantify the quality of highlighted praise components identified by GPT models, we introduced a Modified Intersection over Union (M-IoU) score. Our findings demonstrate that: (1) the M-IoU score effectively correlates with human judgment in evaluating sequence quality; (2) using two-shot prompting on GPT-3.5 resulted in decent performance in recognizing effort-based (M-IoU of 0.46) and outcome-based praise (M-IoU of 0.68); and (3) our optimally fine-tuned GPT-3.5 model achieved M-IoU scores of 0.64 for effort-based praise and 0.84 for outcome-based praise, aligning with the satisfaction levels evaluated by human coders. Our results show promise for using GPT models to provide feedback that focuses on specific elements in their open-ended responses that are desirable or could use improvement.
arxiv情報
著者 | Jionghao Lin,Eason Chen,Zeifei Han,Ashish Gurung,Danielle R. Thomas,Wei Tan,Ngoc Dang Nguyen,Kenneth R. Koedinger |
発行日 | 2024-05-01 02:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google