A SMART Mnemonic Sounds like ‘Glue Tonic’: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick

要約

キーワード・ニーモニックとは、新しい用語をより単純なキーワードに結びつける、記憶に残る説明のことである。先行研究では、生徒のためにニーモニックを生成しているが、生徒が好み、学習を助けるニーモニックを使ってモデルを訓練していない。我々は、新しい用語を学習する実際の生徒からのフィードバックに基づいて訓練されたニーモニックジェネレータであるSMARTを構築する。SMARTを訓練するために、我々はまず、ユーザが書いたニーモニックのキュレーションセットでLLaMA-2を微調整する。次に、SMARTを強化するためにLLMアライメントを使用する。SMARTによって生成されたニーモニックをフラッシュカードアプリに導入し、学生が好むニーモニックの好みを見つける。我々は、45人の学生から2684の嗜好を集めました:2つのタイプ:表現された(評価から推測される)と観察された(学生の学習から推測される)。第一に、表明された嗜好と観察された嗜好は不一致であり、生徒が役に立つと思っていることが本当に役に立つとは限らない。第二に、ベイズモデルは、複数の嗜好タイプからの補完的なデータを単一の有効性シグナルに統合することができる。SMARTは、この信号の直接選好最適化によって調整され、ペアワイズ比較の典型的な方法における同値やラベルの欠落を解決し、LLM出力の品質向上のためにデータを増強します。第三に、ニーモニックの専門家は、SMARTがGPT-4と非常に低い導入コストで一致すると評価しており、教育におけるLLMを調整するために多様な生徒のフィードバックを取り込むことの有用性を示している。

要約(オリジナル)

Keyword mnemonics are memorable explanations that link new terms to simpler keywords. Prior work generates mnemonics for students, but they do not train models using mnemonics students prefer and aid learning. We build SMART, a mnemonic generator trained on feedback from real students learning new terms. To train SMART, we first fine-tune LLaMA-2 on a curated set of user-written mnemonics. We then use LLM alignment to enhance SMART: we deploy mnemonics generated by SMART in a flashcard app to find preferences on mnemonics students favor. We gather 2684 preferences from 45 students across two types: expressed (inferred from ratings) and observed (inferred from student learning), yielding three key findings. First, expressed and observed preferences disagree; what students think is helpful does not always capture what is truly helpful. Second, Bayesian models can synthesize complementary data from multiple preference types into a single effectiveness signal. SMART is tuned via Direct Preference Optimization on this signal, which resolves ties and missing labels in the typical method of pairwise comparisons, augmenting data for LLM output quality gains. Third, mnemonic experts assess SMART as matching GPT-4 at much lower deployment costs, showing the utility of capturing diverse student feedback to align LLMs in education.

arxiv情報

著者 Nishant Balepur,Matthew Shu,Alexander Hoyle,Alison Robey,Shi Feng,Seraphina Goldfarb-Tarrant,Jordan Boyd-Graber
発行日 2024-10-04 15:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク