要約
大規模な言語モデル(LLMS)は、さまざまなNLPタスクで大きな成功を収めています。
ただし、特にリアルタイムのアプリケーションでは、大規模な計算コストが広く使用されています。
構造化された剪定は、モデルを圧縮し、ハードウェア環境に関係なく、エンドツーエンドの速度の改善を直接提供することにより、効果的なソリューションを提供します。
一方、モデルのさまざまなコンポーネントは、剪定に対してさまざまな感度を示し、\ emphing {非uniform}モデル圧縮を要求します。
ただし、剪定方法では、有能な下部構造を特定するだけでなく、圧縮後のトレーニングも説明する必要があります。
この目的のために、\ sysnameを提案します。これは、\ emphing {training-aware}構造化された剪定の方法です。
\ sysNameは、進化の検索プロセスに基づいて構築され、突然変異を通じて各世代に複数の子孫モデルを生成し、生存のための適者を選択します。
トレーニング後の効果を評価するために、子孫集団内に軽量の多段階トレーニングプロセスを組み込み、トークンの数を徐々に増やし、各選択段階でパフォーマンスの低いモデルを排除します。
Llama-2-7B、Llama-3.1-8B、QWEN-2.5-14B-Instructの広範な実験を通じて、私たちの方法を検証し、構造化された剪定の最先端のパフォーマンスを達成します。
たとえば、\ sysnameは、圧縮後のトレーニング中に5ドルの時間$ $ $ $のトレーニングデータを必要としながら、shearedllamaを上回ります。
要約(オリジナル)
Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for \emph{non-uniform} model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for \emph{training-aware} structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring $5\times$ less training data during post-compression training.
arxiv情報
著者 | Shengkun Tang,Oliver Sieberling,Eldar Kurtic,Zhiqiang Shen,Dan Alistarh |
発行日 | 2025-02-11 18:59:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google