要約
対称群 $S_n$ に対して群フーリエ変換を使用して、$S_5$ と $S_6$ の乗算を「理解」した 1 層フィードフォワード ネットワークをリバース エンジニアリングします。
各モデルは、群全体の真の部分群構造を発見し、群の乗算を群の共役部分群の乗算に分解する回路に収束します。
私たちは、データとモデルの対称性を使用してそのメカニズムを理解することの価値を実証し、ニューラル ネットワークが計算を実装する方法の興味深い例としてモデルが使用する「剰余類回路」を取り上げます。
また、私たちの研究をChughtaiらの研究と比較することによって、機械的解釈可能性の研究を実施する際の現在の課題にも注目します。
[6] これと同じ問題に対して別のアルゴリズムを見つけると主張しています。
要約(オリジナル)
We use the group Fourier transform over the symmetric group $S_n$ to reverse engineer a 1-layer feedforward network that has ‘grokked’ the multiplication of $S_5$ and $S_6$. Each model discovers the true subgroup structure of the full group and converges on circuits that decompose the group multiplication into the multiplication of the group’s conjugate subgroups. We demonstrate the value of using the symmetries of the data and models to understand their mechanisms and hold up the “coset circuit” that the model uses as a fascinating example of the way neural networks implement computations. We also draw attention to current challenges in conducting mechanistic interpretability research by comparing our work to Chughtai et al. [6] which alleges to find a different algorithm for this same problem.
arxiv情報
| 著者 | Dashiell Stander,Qinan Yu,Honglu Fan,Stella Biderman |
| 発行日 | 2023-12-11 18:12:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google