要約
大規模な言語モデルの機能の進化には、サイズと展開コストの増大が伴い、効果的な推論最適化手法が必要になります。
我々は、グラフ理論の中心性測定を利用して、これらのモデルの計算要件とメモリ使用量の両方を削減する、新しい枝刈り方法を提案します。
具体的には、多層パーセプトロンの重み付き有向非循環グラフ表現を作成する方法を考案し、これに加重 PageRank 中心性測定の修正版を適用してノード重要度スコアを計算します。
均一な枝刈りと組み合わせると、構造化された疎性が生まれます。
この枝刈りメソッドを MLPRank と呼びます。
さらに、デコーダ専用のトランスフォーマー モデルに拡張機能を導入し、それを LLMRank と呼びます。
どちらのバージョンでも、強力なパフォーマンスを示しています。
MLPRank では平均して 3 つの一般的なベースラインと比較して 6.09 % 高い精度保持率が得られ、LLMRank では 2 つの一般的なベースラインと比較して 13.42 % 高い精度保持率が得られます。
コードは https://github.com/amazon-science/llm-rank-pruning で入手できます。
要約(オリジナル)
The evolving capabilities of large language models are accompanied by growing sizes and deployment costs, necessitating effective inference optimisation techniques. We propose a novel pruning method utilising centrality measures from graph theory, reducing both the computational requirements and the memory footprint of these models. Specifically, we devise a method for creating a weighted directed acyclical graph representation of multilayer perceptrons to which we apply a modified version of the weighted PageRank centrality measure to compute node importance scores. In combination with uniform pruning this leads to structured sparsity. We call this pruning method MLPRank. Furthermore we introduce an extension to decoder-only transformer models and call it LLMRank. For both variants we demonstrate a strong performance. With MLPRank on average leading to 6.09 % higher accuracy retention than three popular baselines and 13.42 % with LLMRank compared to two popular baselines. Code is available at https://github.com/amazon-science/llm-rank-pruning.
arxiv情報
著者 | David Hoffmann,Kailash Budhathoki,Matthaeus Kleindessner |
発行日 | 2024-11-29 11:21:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google