Instruction Tuning with Human Curriculum

要約

命令調整された大規模言語モデル (LLM) を構築する場合、人間の知識を深く理解することの重要性が、命令の多様化の重要性によってしばしば見落とされる可能性があります。
この研究は、人間の教育の体系的な進歩と認知を刺激する性質からインスピレーションを得た構造化された認知学習方法論を 2 つの重要なステップを通じて統合することにより、指導チューニングへの新しいアプローチを提案します。
まず、人間の教育フレームワークを参照して設計された合成指導データ生成パイプラインは、各指導のトピックと認知的厳密さを詳細に示すメタデータで強化されています。
具体的には、私たちの生成フレームワークには、構造化されたカリキュラム学習のための古典的な教育モデルであるブルームの分類法に触発された、さまざまなレベルの厳密さの質問が注入されています。
次に、命令の調整中に、データ生成パイプラインによって生成された質問の複雑さと認知の厳密さに関する情報を利用して、質問がますます複雑な方法で提示されるように命令を厳選します。
私たちの人間主導のカリキュラム学習は、均一サンプリングやラウンドロビンと比較して大幅なパフォーマンス向上をもたらし、LLaMA 2 で MMLU を 3.06 改善しました。私たちは広範な実験を実施し、私たちのアプローチの利点が他の 8 つのベンチマークで一貫して観察されることを発見しました。
私たちの研究が、LLM のトレーニング後の学習プロセスと、人間の LLM との類似点に光を当てることを願っています。

要約(オリジナル)

In building instruction-tuned large language models (LLMs), the importance of a deep understanding of human knowledge can be often overlooked by the importance of instruction diversification. This research proposes a novel approach to instruction tuning by integrating a structured cognitive learning methodology that takes inspiration from the systematic progression and cognitively stimulating nature of human education through two key steps. First, our synthetic instruction data generation pipeline, designed with some references to human educational frameworks, is enriched with meta-data detailing topics and cognitive rigor for each instruction. Specifically, our generation framework is infused with questions of varying levels of rigorousness, inspired by Bloom’s Taxonomy, a classic educational model for structured curriculum learning. Second, during instruction tuning, we curate instructions such that questions are presented in an increasingly complex manner utilizing the information on question complexity and cognitive rigorousness produced by our data generation pipeline. Our human-inspired curriculum learning yields significant performance enhancements compared to uniform sampling or round-robin, improving MMLU by 3.06 on LLaMA 2. We conduct extensive experiments and find that the benefits of our approach are consistently observed in eight other benchmarks. We hope that our work will shed light on the post-training learning process of LLMs and its similarity with their human counterpart.

arxiv情報

著者 Bruce W. Lee,Hyunsoo Cho,Kang Min Yoo
発行日 2024-02-13 18:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク