Improving the Validity of Automatically Generated Feedback via Reinforcement Learning

要約

インテリジェントな個別指導システムやオンライン学習プラットフォームの大規模言語モデル (LLM) を介してフィードバックを自動的に生成すると、多くの生徒の学習成果を向上させる可能性があります。
ただし、フィードバックの生成と評価はどちらも困難です。フィードバックの内容は、問題、解決策、および生徒の間違いがどこにあるかを理解するためのモデルが必要な数学などの科目では特に有効である必要があります。
また、フィードバックは、望ましい機能の中でも特に、考えられる誤解の説明や生徒の励ましなど、効果的な個別指導戦略を反映するために教育学的に有効である必要があります。
この作業では、正確さと整合性の両方を考慮しながら、フィードバックの自動生成と評価の両方の問題に対処します。
まず、数学的フィードバックを評価するためのルーブリックを提案し、GPT-4 がそれを効果的に使用して人間が書いたフィードバックや LLM が生成したフィードバックに注釈を付けることができることを示します。
次に、強化学習 (RL) を使用して正確さと整合性の両方を最適化するフィードバック生成のフレームワークを提案します。
具体的には、GPT-4 のアノテーションを使用して、直接設定最適化 (DPO) によるトレーニング用の拡張データセット内のフィードバック ペアに対する設定を作成します。
私たちの方法により、生成されたフィードバックの正確性とオープンソース LLM である Llama 2 との整合性が大幅に向上することを示し、ケーススタディを使用して生成および評価システムを定性的に分析し、将来の作業のためのいくつかの領域について概説します。

要約(オリジナル)

Automatically generating feedback via large language models (LLMs) in intelligent tutoring systems and online learning platforms has the potential to improve the learning outcomes of many students. However, both feedback generation and evaluation are challenging: feedback content has to be valid especially in subjects like math, which requires models to understand the problem, the solution, and where the student’s error lies. Feedback also has to be pedagogically valid to reflect effective tutoring strategies, such as explaining possible misconceptions and encouraging the student, among other desirable features. In this work, we address both problems of automatically generating and evaluating feedback while considering both correctness and alignment. First, we propose a rubric for evaluating math feedback and show that GPT-4 is able to effectively use it to annotate human-written and LLM-generated feedback. Second, we propose a framework for feedback generation that optimizes both correctness and alignment using reinforcement learning (RL). Specifically, we use GPT-4’s annotations to create preferences over feedback pairs in an augmented dataset for training via direct preference optimization (DPO). We show that our methods significantly increase the correctness and alignment of generated feedback with Llama 2, an open-source LLM, qualitatively analyze our generation and evaluation systems using case studies, and outline several areas for future work.

arxiv情報

著者 Alexander Scarlatos,Digory Smith,Simon Woodhead,Andrew Lan
発行日 2024-12-12 17:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク