Distillation Scaling Laws

要約

計算予算と学生と教師間の割り当てに基づいて蒸留モデルのパフォーマンスを推定する蒸留スケーリング法を提供します。
私たちの調査結果は、大規模な蒸留を使用することに関連するリスクを減らします。
教師モデルと学生モデルの両方に割り当てを計算することで、生徒のパフォーマンスを最大化することができます。
1)教師が存在する場合、または2)教師がトレーニングを必要とする場合のために、最適な蒸留レシピを計算します。
多くの生徒が蒸留される場合、または教師がすでに存在する場合、蒸留は、学生のサイズで予測可能に成長する計算レベルまで、監視された事前に監視された前登録を上回ります。
1人の生徒が蒸留され、教師もトレーニングを必要とする場合、代わりに監督された学習を行う必要があります。
さらに、蒸留に関する大規模な研究全体に洞察を提供し、蒸留の理解を高め、実験設計を通知します。

要約(オリジナル)

We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

arxiv情報

著者 Dan Busbridge,Amitis Shidani,Floris Weers,Jason Ramapuram,Etai Littwin,Russ Webb
発行日 2025-02-12 17:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク