要約
大規模な言語モデル(LLMS)の顕著な成果は、多くの人が知性の形を示すと結論付けています。
これは、膨大な量のデータの比較的単純な操作を実行する能力に基づいたそれらの機能の説明とは対照的です。
これらの説明の区別を明らかにするために、潜在的な離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを紹介します。
穏やかな条件下では、潜在空間から観測された空間へのマッピングが非可変性がある場合でも、識別可能性の結果を確立します。つまり、次のトークン予測を通じてLLMによって学習した表現は、これらの潜在的な離散概念の後部プロブリティの対数の対数として、可逆的な系統変換まで、ほぼモデル化できます。
この理論的発見は、LLMSが根本的な生成要因をキャプチャするという証拠を提供するだけでなく、線形表現仮説を理解するための統一された見込みを提供するだけでなく、統一された見込みを提供します。
これをさらに一歩進めて、私たちの発見は、監視された概念抽出器のパフォーマンスを上限として扱うことにより、スパース自動エンコーダーの信頼できる評価を動機付けます。
このアイデアをさらに推し進めると、スパースを促進することに加えて、潜在的な概念間の依存を強制する構造的なバリアントを刺激します。
経験的には、シミュレーションデータとPythia、Llama、およびDeepseekモデルファミリの両方の評価を通じて理論的結果を検証し、構造化されたスパース自動エンコーダーの有効性を実証します。
要約(オリジナル)
The remarkable achievements of large language models (LLMs) have led many to conclude that they exhibit a form of intelligence. This is as opposed to explanations of their capabilities based on their ability to perform relatively simple manipulations of vast volumes of data. To illuminate the distinction between these explanations, we introduce a novel generative model that generates tokens on the basis of human-interpretable concepts represented as latent discrete variables. Under mild conditions, even when the mapping from the latent space to the observed space is non-invertible, we establish an identifiability result, i.e., the representations learned by LLMs through next-token prediction can be approximately modeled as the logarithm of the posterior probabilities of these latent discrete concepts given input context, up to an invertible linear transformation. This theoretical finding not only provides evidence that LLMs capture underlying generative factors, but also provide a unified prospective for understanding of the linear representation hypothesis. Taking this a step further, our finding motivates a reliable evaluation of sparse autoencoders by treating the performance of supervised concept extractors as an upper bound. Pushing this idea even further, it inspires a structural variant that enforces dependence among latent concepts in addition to promoting sparsity. Empirically, we validate our theoretical results through evaluations on both simulation data and the Pythia, Llama, and DeepSeek model families, and demonstrate the effectiveness of our structured sparse autoencoder.
arxiv情報
著者 | Yuhang Liu,Dong Gong,Yichao Cai,Erdun Gao,Zhen Zhang,Biwei Huang,Mingming Gong,Anton van den Hengel,Javen Qinfeng Shi |
発行日 | 2025-05-12 10:45:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google