要約
大規模な言語モデルにより、自然言語処理は大幅に進歩しましたが、その展開には大量のコンピューティング リソースとメモリ リソースが必要です。
モデルがスケールするにつれて、モデルの品質と計算効率のバランスを取るために圧縮技術が不可欠になります。
モデルの重要度の低いコンポーネントを削除する構造化プルーニングは、複雑さを軽減するための有望な戦略です。
ただし、特に複数ステップの推論を必要とするタスクでは、ワンショットの枝刈りは大幅な品質の低下を引き起こすことがよくあります。
失われた品質を回復するには、教師あり微調整 (SFT) が一般的に適用されますが、モデルの学習データの分布が変化するため、壊滅的な忘却につながる可能性があります。
したがって、元のモデルの品質を維持するには、プルーニングと SFT の両方による劣化に対処することが不可欠です。
この研究では、これらの課題に対処するために、自己データを抽出した微調整を提案します。
私たちのアプローチでは、元の枝刈りされていないモデルを利用して、ベース モデルの知識との整合性を維持することで意味の豊かさを維持し、壊滅的な忘却を軽減する蒸留されたデータセットを生成します。
経験的に、自己データ蒸留は標準 SFT を常に上回り、HuggingFace OpenLLM Leaderboard v1 で平均精度が最大 8% 向上することが実証されています。
具体的には、Llama3.1-8B 命令で 6 つのデコーダ ブロックをプルーニングする場合 (つまり、32 層から 26 層にモデル サイズを 8.03B パラメータから 6.72B パラメータに削減)、私たちの方法では元のモデルの精度が 91.2% 維持されるのに対し、この方法では元のモデルの精度が 81.7% 維持されます。
SFT は、現実世界の FLOP を 16.30% 削減します。
さらに、私たちのアプローチはデータセット全体に効果的に拡張でき、データセットのサイズが大きくなるにつれて品質が向上します。
要約(オリジナル)
Large language models have driven significant progress in natural language processing, but their deployment requires substantial compute and memory resources. As models scale, compression techniques become essential for balancing model quality with computational efficiency. Structured pruning, which removes less critical components of the model, is a promising strategy for reducing complexity. However, one-shot pruning often results in significant quality degradation, particularly in tasks requiring multi-step reasoning. To recover lost quality, supervised fine-tuning (SFT) is commonly applied, but it can lead to catastrophic forgetting by shifting the model’s learned data distribution. Therefore, addressing the degradation from both pruning and SFT is essential to preserve the original model’s quality. In this work, we propose self-data distilled fine-tuning to address these challenges. Our approach leverages the original, unpruned model to generate a distilled dataset that preserves semantic richness and mitigates catastrophic forgetting by maintaining alignment with the base model’s knowledge. Empirically, we demonstrate that self-data distillation consistently outperforms standard SFT, improving average accuracy by up to 8% on the HuggingFace OpenLLM Leaderboard v1. Specifically, when pruning 6 decoder blocks on Llama3.1-8B Instruct (i.e., 32 to 26 layers, reducing the model size from 8.03B to 6.72B parameters), our method retains 91.2% of the original model’s accuracy compared to 81.7% with SFT, while reducing real-world FLOPs by 16.30%. Furthermore, our approach scales effectively across datasets, with the quality improving as the dataset size increases.
arxiv情報
著者 | Vithursan Thangarasa,Ganesh Venkatesh,Nish Sinnadurai,Sean Lie |
発行日 | 2024-10-15 16:57:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google