要約
最近の研究では、言語モデルが活性化空間内の概念 (「特徴」) の 1 次元表現を操作することによって計算を実行するという線形表現仮説が提案されています。
対照的に、一部の言語モデル表現が本質的に多次元である可能性があるかどうかを調査します。
私たちは、既約多次元特徴を独立した、または共起しない低次元特徴に分解できるかどうかに基づいて、その厳密な定義を開発することから始めます。
これらの定義に基づいて、スパース オートエンコーダーを使用して GPT-2 と Mistral 7B の多次元特徴を自動的に検出するスケーラブルな方法を設計します。
これらの自動検出された機能には、非常に解釈しやすい例が含まれています。
曜日と月を表す円形の特徴。
これらの正確な円を使用して、曜日および月ごとのモジュラー算術を含む計算問題を解決するタスクを特定します。
最後に、ミストラル 7B とラマ 3 8B での介入実験により、これらの円形特徴が実際にこれらのタスクにおける計算の基本単位であるという証拠を提供し、これらのタスクの隠れた状態を解釈可能なコンポーネントに分解することによって、さらなる円形表現を見つけます。
要約(オリジナル)
Recent work has proposed the linear representation hypothesis: that language models perform computation by manipulating one-dimensional representations of concepts (‘features’) in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimensional. We begin by developing a rigorous definition of irreducible multi-dimensional features based on whether they can be decomposed into either independent or non-co-occurring lower-dimensional features. Motivated by these definitions, we design a scalable method that uses sparse autoencoders to automatically find multi-dimensional features in GPT-2 and Mistral 7B. These auto-discovered features include strikingly interpretable examples, e.g. circular features representing days of the week and months of the year. We identify tasks where these exact circles are used to solve computational problems involving modular arithmetic in days of the week and months of the year. Finally, we provide evidence that these circular features are indeed the fundamental unit of computation in these tasks with intervention experiments on Mistral 7B and Llama 3 8B, and we find further circular representations by breaking down the hidden states for these tasks into interpretable components.
arxiv情報
著者 | Joshua Engels,Isaac Liao,Eric J. Michaud,Wes Gurnee,Max Tegmark |
発行日 | 2024-05-23 17:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google