Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

要約

大規模言語モデル (LLM) はメモリ効率が悪く、実際のアプリケーションでは計算量が多いため、導入は困難です。
それに応じて、研究者は人間のラベルを使用して微調整するか、LLM で生成されたラベルを使用して抽出することによって、より小さなタスク固有のモデルをトレーニングします。
ただし、LLM と同等のパフォーマンスを達成するには、微調整と蒸留には大量のトレーニング データが必要です。
ここでは、(a) LLM よりも優れたパフォーマンスを発揮する小規模なモデルをトレーニングし、(b) 微調整や蒸留に必要な少ないトレーニング データを活用することでそれを実現する新しいメカニズムである蒸留をステップバイステップで紹介します。
私たちの方法では、マルチタスク フレームワーク内で小さなモデルをトレーニングするための追加の監視として LLM 理論的根拠を抽出します。
4 つの NLP ベンチマーク全体で 3 つの発見を示します。 まず、微調整と蒸留の両方と比較して、私たちのメカニズムは、はるかに少ないラベル付き/ラベルなしトレーニング サンプルでより優れたパフォーマンスを実現します。
第 2 に、少数ショット プロンプト LLM と比較して、大幅に小さいモデル サイズを使用して優れたパフォーマンスを実現します。
第三に、LLM を上回るパフォーマンスを得るために必要なモデル サイズとデータ量の両方を削減します。
微調整された 770M T5 モデルは、ベンチマークで利用可能なデータの 80% のみを使用して、少数ショット プロンプトの 540B PaLM モデルよりも優れたパフォーマンスを示しますが、同じ T5 モデルを標準的に微調整すると、データセットを 100% 使用しても一致させるのに苦労します。
コードは https://github.com/google-research/distilling-step-by-step でリリースされます。

要約(オリジナル)

Deploying large language models (LLMs) is challenging because they are memory inefficient and compute-intensive for practical applications. In reaction, researchers train smaller task-specific models by either finetuning with human labels or distilling using LLM-generated labels. However, finetuning and distillation require large amounts of training data to achieve comparable performance to LLMs. We introduce Distilling step-by-step, a new mechanism that (a) trains smaller models that outperform LLMs, and (b) achieves so by leveraging less training data needed by finetuning or distillation. Our method extracts LLM rationales as additional supervision for training small models within a multi-task framework. We present three findings across 4 NLP benchmarks: First, compared to both finetuning and distillation, our mechanism achieves better performance with much fewer labeled/unlabeled training examples. Second, compared to few-shot prompted LLMs, we achieve better performance using substantially smaller model sizes. Third, we reduce both the model size and the amount of data required to outperform LLMs; our finetuned 770M T5 model outperforms the few-shot prompted 540B PaLM model using only 80% of available data on a benchmark, whereas standard finetuning the same T5 model struggles to match even by using 100% of the dataset. We release the code at: https://github.com/google-research/distilling-step-by-step .

arxiv情報

著者 Cheng-Yu Hsieh,Chun-Liang Li,Chih-Kuan Yeh,Hootan Nakhost,Yasuhisa Fujii,Alexander Ratner,Ranjay Krishna,Chen-Yu Lee,Tomas Pfister
発行日 2023-07-05 16:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク