要約
大規模言語モデル (LLM) は、その優れた機能により自然言語処理を再構築しました。
しかし、そのサイズが増大し続けるため、その効果的な展開と LLM 圧縮の必要性についての懸念が生じました。
この研究では、圧縮 LLM を評価するための新しいアプローチである Divergent Token metrics (DTM) を導入し、テキスト生成の品質を正確に反映できない従来の複雑さまたは精度測定の限界に対処します。
DTM はトークンの発散に焦点を当てており、これによりモデル圧縮の微妙な点についてより深い洞察が可能になります。
コンポーネントの影響を個別に評価する場合。
モデルのスパース化で First Divergent Token メトリクス (FDTM) を利用すると、Llama-2 モデル ファミリでは、すべてのアテンション コンポーネントの 4 分の 1 を 90% を超えてプルーニングでき、依然として SOTA パフォーマンスを維持できることがわかります。
量子化に関して、FDTM は、パラメータの 80% 以上が特別な外れ値管理なしで単純に int8 に変換できることを示唆しています。
これらの評価は、パラメータに対して個別に適切な圧縮を選択する必要性と、標準的な指標では結果が悪化する一方で、FDTM がそれらを識別できることを示しています。
要約(オリジナル)
Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. Their ever-increasing size, however, raised concerns about their effective deployment and the need for LLM compressions. This study introduces the Divergent Token metrics (DTMs), a novel approach for assessing compressed LLMs, addressing the limitations of traditional perplexity or accuracy measures that fail to accurately reflect text generation quality. DTMs focus on token divergence, that allow deeper insights into the subtleties of model compression, i.p. when evaluating component’s impacts individually. Utilizing the First Divergent Token metric (FDTM) in model sparsification reveals that a quarter of all attention components can be pruned beyond 90% on the Llama-2 model family, still keeping SOTA performance. For quantization FDTM suggests that over 80% of parameters can naively be transformed to int8 without special outlier management. These evaluations indicate the necessity of choosing appropriate compressions for parameters individually-and that FDTM can identify those-while standard metrics result in deteriorated outcomes.
arxiv情報
著者 | Björn Deiseroth,Max Meuer,Nikolas Gritsch,Constantin Eichenberg,Patrick Schramowski,Matthias Aßenmacher,Kristian Kersting |
発行日 | 2023-11-13 15:33:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google