Aligning Teacher with Student Preferences for Tailored Training Data Generation

要約

大規模言語モデル (LLM) は、さまざまなタスクの副操縦士として大きな可能性を示しています。
プライバシーに敏感なデータや遅延に敏感なタスクを処理する場合は、エッジ デバイス上での LLM のローカル展開が必要です。
このようなデバイスの計算上の制約により、強力な大規模 LLM を直接展開することは非現実的であり、大規模モデルから軽量モデルへの知識の蒸留が必要になります。
LLM から多様性と質の高いトレーニング例を引き出すために多くの作業が行われてきましたが、教育学の「応答教育」に似た、生徒の好みに基づいて教師の指導内容を調整することにはほとんど注意が払われてきませんでした。
そこで、私たちは、教師モデルを生徒の好みに合わせて知識の蒸留に合わせたトレーニング例を生成するフレームワークである、「Aligning TacheR with Student Preferences」と名付けた ARTE を提案します。
具体的には、教師モデルから質問と根拠の草案を引き出し、次にコンテキスト内学習を代用として生徒の成績を使用してこれらの質問と根拠に関する生徒の好みを収集し、最後に教師モデルを生徒の好みに合わせます。
最後に、調整された教師モデルを使用して最初のステップを繰り返し、ターゲット タスクに関する学生モデルに合わせたトレーニング サンプルを導き出します。
学術ベンチマークに関する広範な実験により、強力な LLM から抽出された既存の命令チューニング データセットに対する ARTE の優位性が実証されています。
さらに、推論能力における微調整された生徒モデルの一般化や、タスクと生徒全体にわたって調整されたトレーニング データを生成するための調整された教師モデルの一般化など、ARTE の一般化を徹底的に調査します。
要約すると、私たちの貢献は、調整されたトレーニング例を生成するための新しいフレームワークを提案し、実験でその有効性を実証し、ARTE における学生モデルと調整された教師モデルの両方の一般化を調査することにあります。

要約(オリジナル)

Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to ‘responsive teaching’ in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students’ performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.

arxiv情報

著者 Yantao Liu,Zhao Zhang,Zijun Yao,Shulin Cao,Lei Hou,Juanzi Li
発行日 2024-06-27 14:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク