要約
不浸透性ポリマンティックニューロンは、大規模な言語モデルの解釈可能性に対する多くの現在のアプローチの中核です。
ここでは、特にトレーニング後の主要な最適化技術である体重スパースの下で、パフォーマンスを理解するために解き分析をどのように使用できるかを研究しようとします。
ニューロンのエンタングルメントを推定するための新しい尺度を提案します。ニューロンの出力分布のワッサースタイン距離はガウスへの距離です。
さらに、LLMの各線形層に少数の非常に絡み合った「ワッサースタインニューロン」が存在することを示します。これは、非常に非ガウス出力分布、異なる出力への同様の入力のマッピングにおける役割、およびモデルの精度への大きな影響を特徴としています。
これらの現象を研究するために、ポリマンティックニューロンを解くための新しい実験フレームワークを提案します。
私たちのフレームワークは、各レイヤーの入力を分離して、各ニューロンの出力がより低いワッサースタイン距離のニューロンの混合によって計算される専門家の混合物を作成します。
これは、まばらな専門家の混合物が個々のニューロンの入出力関係、特に困難なワッサースタインニューロンを効果的に解体しているためであるという強力な証拠を提供します。
要約(オリジナル)
Disentangling polysemantic neurons is at the core of many current approaches to interpretability of large language models. Here we attempt to study how disentanglement can be used to understand performance, particularly under weight sparsity, a leading post-training optimization technique. We suggest a novel measure for estimating neuronal entanglement: the Wasserstein distance of a neuron’s output distribution to a Gaussian. Moreover, we show the existence of a small number of highly entangled ‘Wasserstein Neurons’ in each linear layer of an LLM, characterized by their highly non-Gaussian output distributions, their role in mapping similar inputs to dissimilar outputs, and their significant impact on model accuracy. To study these phenomena, we propose a new experimental framework for disentangling polysemantic neurons. Our framework separates each layer’s inputs to create a mixture of experts where each neuron’s output is computed by a mixture of neurons of lower Wasserstein distance, each better at maintaining accuracy when sparsified without retraining. We provide strong evidence that this is because the mixture of sparse experts is effectively disentangling the input-output relationship of individual neurons, in particular the difficult Wasserstein neurons.
arxiv情報
著者 | Shashata Sawmya,Linghao Kong,Ilia Markov,Dan Alistarh,Nir Shavit |
発行日 | 2025-02-26 17:32:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google