DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

要約

大規模な言語モデル(LLMS)での蒸留の成功にもかかわらず、ほとんどの以前の研究は、教師と生徒が生成するデータの両方に同一の損失関数を適用します。
これらの戦略は、損失の定式化とデータ型との相乗効果を見落とし、学生モデルの最適ではないパフォーマンスの向上につながります。
これに対処するために、Distillm-2を提案します。これは、教師の反応の可能性を同時に増やし、この相乗効果を活用することで学生の反応の可能性を減らす対照的なアプローチを提案します。
私たちの広範な実験は、DistillM-2が、指導の公開やコード生成など、幅広いタスクにわたって高性能の学生モデルを構築するだけでなく、優先順位のアラインメントやビジョン言語拡張などの多様なアプリケーションもサポートすることを示しています。
これらの発見は、さまざまなデータ型全体で教師と生徒のモデルを効果的に整列させることにより、LLM蒸留の有効性を高めるための対照的なアプローチの可能性を強調しています。

要約(オリジナル)

Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.

arxiv情報

著者 Jongwoo Ko,Tianyi Chen,Sungnyun Kim,Tianyu Ding,Luming Liang,Ilya Zharkov,Se-Young Yun
発行日 2025-03-10 08:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク