DistiLLM: Towards Streamlined Distillation for Large Language Models

要約

知識蒸留 (KD) は、教師モデルをより小さな生徒モデルに圧縮するために広く使用されており、モデルの機能を維持しながら推論コストとメモリ使用量を削減します。
ただし、自己回帰シーケンス モデル (大規模な言語モデルなど) に対する現在の KD 手法には、標準化された目的関数が欠けているという問題があります。
さらに、トレーニングと推論の不一致に対処するために学生が生成した出力を最近使用することで、計算コストが大幅に増加しています。
これらの問題に取り組むために、自己回帰言語モデルのためのより効果的かつ効率的な KD フレームワークである DistiLLM を紹介します。
DistiLLM は 2 つのコンポーネントで構成されます。(1) 新しいスキュー カルバック ライブラー発散損失。その理論的特性を明らかにして活用します。(2) 学生が生成した出力の利用効率を高めるために設計された適応型オフポリシー アプローチ。
指示に従うタスクを含む広範な実験により、最近の KD 手法と比較して最大 4.3 倍の高速化を達成しながら、高パフォーマンスの学生モデルを構築する際の DistiLLM の有効性が実証されました。

要約(オリジナル)

Knowledge distillation (KD) is widely used for compressing a teacher model to a smaller student model, reducing its inference cost and memory footprint while preserving model capabilities. However, current KD methods for auto-regressive sequence models (e.g., large language models) suffer from missing a standardized objective function. Moreover, the recent use of student-generated outputs to address training-inference mismatches has significantly escalated computational costs. To tackle these issues, we introduce DistiLLM, a more effective and efficient KD framework for auto-regressive language models. DistiLLM comprises two components: (1) a novel skew Kullback-Leibler divergence loss, where we unveil and leverage its theoretical properties, and (2) an adaptive off-policy approach designed to enhance the efficiency in utilizing student-generated outputs. Extensive experiments, including instruction-following tasks, demonstrate the effectiveness of DistiLLM in building high-performing student models while achieving up to 4.3$\times$ speedup compared to recent KD methods.

arxiv情報

著者 Jongwoo Ko,Sungnyun Kim,Tianyi Chen,Se-Young Yun
発行日 2024-02-06 11:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク