A SMART Mnemonic Sounds like ‘Glue Tonic’: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick

要約

キーワードニーモニックは、新しい用語をより単純なキーワードに結び付ける、記憶に残る説明です。
これまでの研究では、学生向けの記憶術が生成されていましたが、学生が好む記憶術にモデルを導き、学習を支援するものではありませんでした。
私たちは、新しい用語を学習している実際の生徒からのフィードバックに基づいてトレーニングされた記憶術ジェネレーターである SMART を構築します。
SMART をトレーニングするには、まずユーザーが作成したニーモニックの厳選されたセットに基づいて LLaMA-2 を微調整します。
次に、LLM アライメントを使用して SMART を強化します。SMART によって生成された記憶術をフラッシュカード アプリに展開して、生徒が好む記憶術の好みを見つけます。
私たちは 45 人の生徒から 2 つのタイプ (評価から推測) と観察 (生徒の学習から推測) の 2,684 件の好みを収集し、3 つの重要な結果を得ました。
まず、表現され観察された好みは一致しません。
学生が役立つと考えるものは、本当に役立つものを完全には捉えていません。
第 2 に、ベイジアン モデルは、複数の嗜好タイプからの相補的なデータを単一の有効性シグナルに合成できます。
SMART は、この信号の Direct Preference Optimization を介して調整されます。これにより、ペアごとの比較の一般的な方法での同点とラベルの欠落が解決され、LLM 出力品質ゲインのデータが強化されることを示します。
第三に、記憶術の専門家は、SMART がはるかに低い導入コストで GPT-4 に匹敵すると評価し、教育における LLM を調整するために多様な学生のフィードバックを収集する有用性を示しています。

要約(オリジナル)

Keyword mnemonics are memorable explanations that link new terms to simpler keywords. Prior works generate mnemonics for students, but they do not guide models toward mnemonics students prefer and aid learning. We build SMART, a mnemonic generator trained on feedback from real students learning new terms. To train SMART, we first fine-tune LLaMA-2 on a curated set of user-written mnemonics. We then use LLM alignment to enhance SMART: we deploy mnemonics generated by SMART in a flashcard app to find preferences on mnemonics students favor. We gather 2684 preferences from 45 students across two types: expressed (inferred from ratings) and observed (inferred from student learning), yielding three key findings. First, expressed and observed preferences disagree; what students think is helpful does not fully capture what is truly helpful. Second, Bayesian models can synthesize complementary data from multiple preference types into a single effectiveness signal. SMART is tuned via Direct Preference Optimization on this signal, which we show resolves ties and missing labels in the typical method of pairwise comparisons, augmenting data for LLM output quality gains. Third, mnemonic experts assess SMART as matching GPT-4, at much lower deployment costs, showing the utility of capturing diverse student feedback to align LLMs in education.

arxiv情報

著者 Nishant Balepur,Matthew Shu,Alexander Hoyle,Alison Robey,Shi Feng,Seraphina Goldfarb-Tarrant,Jordan Boyd-Graber
発行日 2024-06-21 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク