要約
大規模言語モデル (LLM) は成功を収めていますが、依然として高い推論コストとメモリ要件に関連する課題に直面しています。
これらの問題に対処するために、知識蒸留 (KD) がモデル圧縮の一般的な方法として浮上しており、学習者生成出力 (SGO) はトレーニングと推論の間の不一致を減らす点で特に注目に値します。
ただし、SGO はノイズの多い偏ったシーケンスを生成することが多く、特に長いシーケンスでは教師モデルからの誤った指導につながる可能性があります。
これらの課題を軽減するために、私たちは、生徒のシーケンス生成中に教師モデルを戦略的に組み込む新しいアプローチである SWITCH (Studing WIth TeaCHer for Knowledge Distillation) を提案します。
SWITCH は、教師モデルと生徒モデルのトークン確率の不一致を特定し、特に教師の誤解が生じやすい長いシーケンスにおいて、教師が選択的に介入できるようにします。
3 つのモデル ファミリと 5 つの命令追従データセットにわたる広範な実験結果は、SWITCH が従来の KD 手法を上回り、特に長い連続データの生成に優れていることを示しています。
要約(オリジナル)
Despite the success of Large Language Models (LLMs), they still face challenges related to high inference costs and memory requirements. To address these issues, Knowledge Distillation (KD) has emerged as a popular method for model compression, with student-generated outputs (SGOs) being particularly notable for reducing the mismatch between training and inference. However, SGOs often produce noisy and biased sequences, which can lead to misguidance from the teacher model, especially in long sequences. To mitigate these challenges, we propose SWITCH (Studying WIth TeaCHer for Knowledge Distillation), a novel approach that strategically incorporates the teacher model during the student’s sequence generation. SWITCH identifies discrepancies between the token probabilities of the teacher and student models, allowing the teacher to intervene selectively, particularly in long sequences that are more prone to teacher misguidance. Extensive experimental results across three model families and five instruction-following datasets show that SWITCH surpasses traditional KD methods, particularly excelling in the generation of long sequential data.
arxiv情報
著者 | Jahyun Koo,Yerin Hwang,Yongil Kim,Taegwan Kang,Hyunkyung Bae,Kyomin Jung |
発行日 | 2024-10-25 12:10:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google