要約
LLM を疎なエキスパートの混合物に拡張することで LLM の推論効率を向上させる方法を示します。各エキスパートは元の重みのコピーであり、入力値の特定のクラスターに対してワンショットで枝刈りされます。
このアプローチを $\textit{Sparse Expansion}$ と呼びます。
Llama 2 70B などのモデルでは、スパース エキスパートの数を増やすと、トークンあたりの同じ推論 FLOP バジェットに対して、スパース拡張が他のすべてのワンショット スパース化アプローチよりも優れたパフォーマンスを発揮し、スパース性が増加するにつれてこのギャップが拡大し、
推論の高速化につながります。
しかし、なぜ?
これに答えるために、私たちは、まばらな専門家の混合が、入力のクラスター全体にわたる個々のニューロンの入出力関係を効果的に $\textit{解きほぐす}$ しているという強力な証拠を提供します。
具体的には、スパースエキスパートは、分布をより単純な分布のコレクションに分解し、それぞれを個別のスパースドット積でカバーすることにより、より少ない重みで高密度ニューロン出力分布を近似します。
興味深いことに、ニューロンの出力分布とガウス分布の間のワッサーシュタイン距離が、そのもつれレベルとモデルの精度への寄与の指標であることを示します。
LLM の各層には、高度に絡み合ったワッサースタイン ニューロンの一部が含まれており、これらのニューロンが他の層に比べて疎化されている場合、モデルのパフォーマンスはさらに低下します。
要約(オリジナル)
We show how to improve the inference efficiency of an LLM by expanding it into a mixture of sparse experts, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input values. We call this approach $\textit{Sparse Expansion}$. We show that, for models such as Llama 2 70B, as we increase the number of sparse experts, Sparse Expansion outperforms all other one-shot sparsification approaches for the same inference FLOP budget per token, and that this gap grows as sparsity increases, leading to inference speedups. But why? To answer this, we provide strong evidence that the mixture of sparse experts is effectively $\textit{disentangling}$ the input-output relationship of every individual neuron across clusters of inputs. Specifically, sparse experts approximate the dense neuron output distribution with fewer weights by decomposing the distribution into a collection of simpler ones, each with a separate sparse dot product covering it. Interestingly, we show that the Wasserstein distance between a neuron’s output distribution and a Gaussian distribution is an indicator of its entanglement level and contribution to the accuracy of the model. Every layer of an LLM has a fraction of highly entangled Wasserstein neurons, and model performance suffers more when these are sparsified as opposed to others.
arxiv情報
著者 | Shashata Sawmya,Linghao Kong,Ilia Markov,Dan Alistarh,Nir Shavit |
発行日 | 2024-05-24 17:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google