Group Crosscoders for Mechanistic Analysis of Symmetry

要約

我々は、ニューラルネットワークにおける対称的な特徴を系統的に発見し、分析するクロスコーダーの拡張であるグループクロスコーダーを紹介する。ニューラルネットワークはしばしば、アーキテクチャ上の明示的な制約なしに等変量表現を発達させるが、このような出現した対称性を理解することは、従来は手作業による解析に頼っていた。グループ・クロスコーダは、対称グループの下で変換されたバージョンの入力にわたって辞書学習を行うことで、このプロセスを自動化します。二面体群$mathmrm{D}_{32}$を用いてInceptionV1のmixed3b層に適用したところ、我々の手法はいくつかの重要な洞察を明らかにした:第一に、特徴量をあらかじめ仮説された特徴タイプに対応する解釈可能なファミリーに自然にクラスタリングし、標準的なスパースオートエンコーダよりも正確な分離を提供する。第二に、我々の変換ブロック分析により、特徴の対称性を自動的に特徴付けることができ、異なる幾何学的特徴(曲線と直線など)がどのように異なる不変性と等変性のパターンを示すかが明らかになる。これらの結果は、グループ・クロスコーダが、ニューラルネットワークがどのように対称性を表現するかについて系統的な洞察を提供し、メカニズム的な解釈可能性のための有望な新しいツールを提供できることを示している。

要約(オリジナル)

We introduce group crosscoders, an extension of crosscoders that systematically discover and analyse symmetrical features in neural networks. While neural networks often develop equivariant representations without explicit architectural constraints, understanding these emergent symmetries has traditionally relied on manual analysis. Group crosscoders automate this process by performing dictionary learning across transformed versions of inputs under a symmetry group. Applied to InceptionV1’s mixed3b layer using the dihedral group $\mathrm{D}_{32}$, our method reveals several key insights: First, it naturally clusters features into interpretable families that correspond to previously hypothesised feature types, providing more precise separation than standard sparse autoencoders. Second, our transform block analysis enables the automatic characterisation of feature symmetries, revealing how different geometric features (such as curves versus lines) exhibit distinct patterns of invariance and equivariance. These results demonstrate that group crosscoders can provide systematic insights into how neural networks represent symmetry, offering a promising new tool for mechanistic interpretability.

arxiv情報

著者 Liv Gorton
発行日 2024-11-01 03:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク