要約
深層学習における層の重要性の評価は、モデルの最適化と解釈可能性に重大な影響を与える活発な研究分野です。
最近、大規模言語モデル (LLM) がさまざまな分野で注目を集めていますが、特にアクティベーション分布の観点から、LLM 内の個々の層の機能的重要性とパフォーマンスへの貢献を調査した研究は限られています。
この研究では、モデルのパフォーマンスに対する各層の寄与を評価するために、正規化された活性化分散と疎性を組み合わせた新しい指標である活性化分散-疎性スコア (AVSS) を提案します。
AVSS に基づいてレイヤーの約 25% を特定して削除することで、質問応答、言語モデリング、感情分類などのタスク全体で元のモデルのパフォーマンスの 90% 以上を達成しました。これは、これらのレイヤーが必須ではない可能性があることを示しています。
私たちのアプローチは、重要度の低い層を識別する体系的な方法を提供し、効率的な大規模言語モデル アーキテクチャに貢献します。
要約(オリジナル)
The evaluation of layer importance in deep learning has been an active area of research, with significant implications for model optimization and interpretability. Recently, large language models (LLMs) have gained prominence across various domains, yet limited studies have explored the functional importance and performance contributions of individual layers within LLMs, especially from the perspective of activation distribution. In this work, we propose the Activation Variance-Sparsity Score (AVSS), a novel metric combining normalized activation variance and sparsity to assess each layer’s contribution to model performance. By identifying and removing approximately the lowest 25% of layers based on AVSS, we achieve over 90% of original model performance across tasks such as question answering, language modeling, and sentiment classification, indicating that these layers may be non-essential. Our approach provides a systematic method for identifying less critical layers, contributing to efficient large language model architectures.
arxiv情報
著者 | Zichen Song,Yuxin Wu,Sitan Huang,Zhongfeng Kang |
発行日 | 2024-11-04 14:29:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google