要約
この論文では、教育的文脈における LLM の適用における変革的な変化を意味する、教育学的に調整された大規模言語モデル (LLM) の新しい概念を紹介します。
ユーザーの質問に直接応答するのではなく、教育学的に調整された LLM は足場ツールとして機能し、複雑な問題を管理可能なサブ問題に分割し、建設的なフィードバックとヒントを通じて学生を最終的な答えに導きます。
目的は、学習者に主題の理解と内面化をさらに深める問題解決戦略を身に付けることです。
この分野のこれまでの研究では、目的を位置合わせ問題として捉えることなく、主に教師あり微調整アプローチを適用しており、そのためヒューマンフィードバックによる強化学習(RLHF)手法は採用されていませんでした。
この研究は、調整というレンズを通してタスクを観察することで物語を再解釈し、LLM の動作を調整するための優れた代替手段として RLHF 手法がどのように自然に現れるかを示しています。
この観点に基づいて、LLM の教育学的調整のために特別に設計された報酬データセットを構築するための新しいアプローチを提案します。
3 つの最先端の RLHF アルゴリズムを適用したところ、それらのアルゴリズムが SFT よりも大幅に優れていることがわかりました。
モデルの違いとハイパーパラメーターの感度にわたる定性分析により、SFT に対する RLHF の優位性がさらに検証されます。
また、私たちの研究は、教育学的に調整された LLM のパフォーマンスを向上させるためのオンライン フィードバックの可能性を明らかにし、教育現場でのこれらのモデルの進歩に貴重な洞察を提供します。
要約(オリジナル)
In this paper, we introduce the novel concept of pedagogically aligned Large Language Models (LLMs) that signifies a transformative shift in the application of LLMs within educational contexts. Rather than providing direct responses to user queries, pedagogically-aligned LLMs function as scaffolding tools, breaking complex problems into manageable subproblems and guiding students towards the final answer through constructive feedback and hints. The objective is to equip learners with problem-solving strategies that deepen their understanding and internalization of the subject matter. Previous research in this field has primarily applied the supervised finetuning approach without framing the objective as an alignment problem, hence not employing reinforcement learning through human feedback (RLHF) methods. This study reinterprets the narrative by viewing the task through the lens of alignment and demonstrates how RLHF methods emerge naturally as a superior alternative for aligning LLM behaviour. Building on this perspective, we propose a novel approach for constructing a reward dataset specifically designed for the pedagogical alignment of LLMs. We apply three state-of-the-art RLHF algorithms and find that they outperform SFT significantly. Our qualitative analyses across model differences and hyperparameter sensitivity further validate the superiority of RLHF over SFT. Also, our study sheds light on the potential of online feedback for enhancing the performance of pedagogically-aligned LLMs, thus providing valuable insights for the advancement of these models in educational settings.
arxiv情報
著者 | Shashank Sonkar,Kangqi Ni,Sapana Chaudhary,Richard G. Baraniuk |
発行日 | 2024-02-07 16:15:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google