要約
私たちは、さまざまなモデルが中間層の潜在空間で概念をどのように同様に表現するかを理解することを目的とした研究分野である大規模言語モデル (LLM) における機能の普遍性を調査します。
特徴の普遍性を実証することで、潜在表現に関する発見を複数のモデルにわたって一般化することができます。
ただし、個々のニューロンが個別の特徴ではなく複数の特徴に対応することが多いため、LLM 間で特徴を比較することは困難です。
このため、さまざまなモデル間で機能を解きほぐして一致させることが困難になります。
この問題に対処するために、スパース オートエンコーダ (SAE) を使用して LLM の活性化を個々の特徴に対応するニューロンがまたがるより解釈可能な空間に変換する辞書学習として知られる方法を採用します。
活性化相関を介してモデル間で特徴ニューロンを照合した後、特異値正準相関分析などの表現空間類似性メトリクスを適用して、異なる LLM 間でこれらの SAE 特徴を分析します。
私たちの実験では、さまざまな LLM にわたる SAE 特徴空間の顕著な類似性が明らかになり、特徴の普遍性の新たな証拠が得られました。
要約(オリジナル)
We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones. This makes it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics like Singular Value Canonical Correlation Analysis to analyze these SAE features across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.
arxiv情報
著者 | Michael Lan,Philip Torr,Austin Meek,Ashkan Khakzar,David Krueger,Fazl Barez |
発行日 | 2024-10-09 15:18:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google