要約
この研究は、大規模な言語モデルと機能の調整に基づく知識蒸留アルゴリズムを提案し、大規模な事前トレーニング済みモデルの知識を軽量のスチューデント モデルに効果的に転送し、それによって高いモデル パフォーマンスを維持しながら計算コストを削減することを目的としています。
従来のソフトラベル蒸留法とは異なり、この方法は、教師モデルと生徒モデルの中間特徴と注意メカニズムを深く調整する多層特徴調整戦略を導入し、教師の意味表現能力とコンテキストモデリング能力を最大限に維持します。
モデル。
方法設計の観点からは、機能マッチング損失、アテンションアライメント損失、出力分布マッチング損失を含むマルチタスク損失関数が構築され、共同最適化を通じてマルチレベルの情報転送が保証されます。
実験は、GLUE データセットとさまざまな自然言語処理タスクに関して包括的に評価されました。
結果は、提案されたモデルが、パープレキシティ、BLEU、ROUGE、CER などの評価指標の点で最先端の GPT-4 モデルに非常に近い性能を発揮することを示しています。
同時に、DeBERTa、XLNet、GPT-3 などのベースライン モデルをはるかに上回り、大幅なパフォーマンスの向上とコンピューティング効率の利点を示しています。
研究結果によると、特徴アライメント蒸留戦略は、モデルの機能を維持しながら計算オーバーヘッドとストレージ要件を大幅に削減できる効果的なモデル圧縮方法であることが示されています。
今後の研究は、自己教師あり学習、クロスモーダル機能調整、マルチタスク転移学習の方向にさらに拡張され、深層学習モデルの展開と最適化のためのより柔軟で効率的なソリューションを提供する可能性があります。
要約(オリジナル)
This study proposes a knowledge distillation algorithm based on large language models and feature alignment, aiming to effectively transfer the knowledge of large pre-trained models into lightweight student models, thereby reducing computational costs while maintaining high model performance. Different from the traditional soft label distillation method, this method introduces a multi-layer feature alignment strategy to deeply align the intermediate features and attention mechanisms of the teacher model and the student model, maximally retaining the semantic expression ability and context modeling ability of the teacher model. In terms of method design, a multi-task loss function is constructed, including feature matching loss, attention alignment loss, and output distribution matching loss, to ensure multi-level information transfer through joint optimization. The experiments were comprehensively evaluated on the GLUE data set and various natural language processing tasks. The results show that the proposed model performs very close to the state-of-the-art GPT-4 model in terms of evaluation indicators such as perplexity, BLEU, ROUGE, and CER. At the same time, it far exceeds baseline models such as DeBERTa, XLNet, and GPT-3, showing significant performance improvements and computing efficiency advantages. Research results show that the feature alignment distillation strategy is an effective model compression method that can significantly reduce computational overhead and storage requirements while maintaining model capabilities. Future research can be further expanded in the directions of self-supervised learning, cross-modal feature alignment, and multi-task transfer learning to provide more flexible and efficient solutions for the deployment and optimization of deep learning models.
arxiv情報
著者 | Shuo Wang,Chihang Wang,Jia Gao,Zhen Qi,Hongye Zheng,Xiaoxuan Liao |
発行日 | 2024-12-27 04:37:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google