要約
最近の NLP タスクにおける大規模言語モデル (LLM) の優れたパフォーマンスにもかかわらず、その導入には高い計算量とメモリ需要があるため、大きな課題が生じています。
最近の研究は、LLM からの知識の蒸留を通じてオープンソースの小規模モデルを改善し、計算リソースのコストを削減し、有望な成果をもたらすことに重点を置いています。
それにもかかわらず、特に高度な推論を必要とするタスクでは、LLM レベルのパフォーマンスを達成できないことがよくあります。
この作業では、\textbf{混合蒸留} フレームワークを導入します。これは、LLM 内の思考プログラム (PoT) 機能と思考連鎖 (CoT) 機能の強みを活用し、これらの機能をより小さなモデルに蒸留します。
これら 2 つの機能に関して、PoT は小規模なモデルによって生成された推論結果のパフォーマンスを強化することに専念し、同時に CoT は結果を最適化します。
当社の混合蒸留フレームワークは、小規模モデルの機能を強化し、LLM とのギャップを埋め、さまざまなタスクにわたってより優れたパフォーマンスを実証するための有望なアプローチを提供します。
具体的には、SVAMP データセットでは、混合蒸留フレームワークで 70 億のパラメーター Llama2 と CodeLlama を採用することで、シングルパス蒸留方法を超えて蒸留能力が向上するだけでなく、推論精度の点で LLM (GPT-3.5-turbo) よりも優れています。
マルチパス推論でのサンプリングを通じて、モデルはそれぞれ 85% と 85.5% という優れた精度パフォーマンスを達成し、以前の蒸留方法よりも進歩していることを示しています。
要約(オリジナル)
Despite the remarkable performance of large language models (LLMs) in recent NLP tasks, their deployment poses substantial challenges due to high computational and memory demands. Recent research has concentrated on improving open-source smaller models through knowledge distillation from LLMs to reduce computational resource costs with promising outcomes. Nevertheless, they frequently fall short of attaining LLM-level performance, particularly in tasks demanding advanced reasoning. In this work, we introduce the \textbf{Mixed Distillation} framework, which capitalizes on the strengths of Program-of-Thought (PoT) and Chain-of-Thought (CoT) capabilities within LLMs and distills these capabilities to smaller models. Regarding these two capabilities, the PoT is dedicated to enhancing the performance of reasoning results generated by smaller models, while CoT simultaneously optimizes the results. Our Mixed Distillation framework offers a promising approach to enhance the capabilities of smaller models, bridging the gap with LLMs, and demonstrating better performance across various tasks. Specifically, on the SVAMP dataset, employing a 7 billion parameter Llama2 and CodeLlama in a mixed distillation framework not only boosts distillation capabilities beyond single-path distillation methods but also outperforms the LLM (GPT-3.5-turbo) in terms of reasoning accuracy. Through sampling in multiple-path reasoning, the models achieve impressive accuracy performances of 85% and 85.5%, respectively, signifying advancements over previous distillation methods.
arxiv情報
著者 | Li Chenglin,Chen Qianglong,Wang Caiyu,Zhang Yin |
発行日 | 2023-12-17 14:28:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google