Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

要約

LLM に対する推論の需要はここ数カ月で急増しており、アテンション レイヤーの 2 次入力長の複雑さのため、低レイテンシーでモデルを提供することは依然として困難です。
この研究では、推論時に MLP 層とアテンション層を削除した場合の Llama-v2 モデルのパフォーマンスへの影響を調査します。
ドリーパー アテンション レイヤーを削除すると、パフォーマンスはわずかに低下するだけですが、レイヤー全体を削除するのと比べて最高の速度向上が得られることがわかりました。
たとえば、13B Llama2 モデルのアテンション レイヤーの 33\% を削除すると、OpenLLM ベンチマークと比較して平均パフォーマンスが 1.8\% 低下します。
また、後者の層を除いて層をスキップすると、注目層のスキップを除いて、スキップされた層のパフォーマンスが低下することも観察されます。

要約(オリジナル)

The inference demand for LLMs has skyrocketed in recent months, and serving models with low latencies remains challenging due to the quadratic input length complexity of the attention layers. In this work, we investigate the effect of dropping MLP and attention layers at inference time on the performance of Llama-v2 models. We find that dropping dreeper attention layers only marginally decreases performance but leads to the best speedups alongside dropping entire layers. For example, removing 33\% of attention layers in a 13B Llama2 model results in a 1.8\% drop in average performance over the OpenLLM benchmark. We also observe that skipping layers except the latter layers reduces performances for more layers skipped, except for skipping the attention layers.

arxiv情報

著者 Georgy Tyukin,Gbetondji J-S Dovonon,Jean Kaddour,Pasquale Minervini
発行日 2024-07-22 10:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク