TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

要約

大規模言語モデル (LLM) は、さまざまな NLP タスクにおいて優れた推論機能とデータ拡張機能を発揮します。
しかし、小型モデルの場合はどうでしょうか?
この研究では、ほとんどの NLP サンプルに関連する基本事項、思考の連鎖、およびよくある間違いに注釈を付けることができる TeacherLM-7.1B を提案します。これにより、注釈が単なる答え以上のものになり、他のモデルが単なる答えではなく「なぜ」を学習できるようになります。
‘何’。
TeacherLM-7.1B モデルは、MMLU で 52.3 のゼロショット スコアを達成し、100B を超えるパラメータを持つほとんどのモデルを上回りました。
さらに注目すべきは、そのデータ拡張能力です。
TeacherLM-7.1B に基づいて、58 の NLP データセットを拡張し、マルチタスク設定で OPT および BLOOM シリーズのさまざまなパラメーターを使用してさまざまな生徒モデルを指導しました。
実験結果は、TeacherLM が提供するデータ拡張が大きなメリットをもたらしたことを示しています。
TeacherLM シリーズのモデルと拡張データセットをオープンソースとしてリリースします。

要約(オリジナル)

Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn ‘why’ instead of just ‘what’. The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.

arxiv情報

著者 Nan He,Hanyu Lai,Chenyang Zhao,Zirui Cheng,Junting Pan,Ruoyu Qin,Ruofan Lu,Rui Lu,Yunchen Zhang,Gangming Zhao,Zhaohui Hou,Zhiyuan Huang,Shaoqing Lu,Ding Liang,Mingjie Zhan
発行日 2023-10-29 14:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク