要約
ディープ ニューラル ネットワークは複雑で予測不可能な性質があるため、多くの危険なアプリケーションでの安全な使用が妨げられています。
ディープ ニューラル ネットワークを解釈するために開発された技術は数多くありますが、いずれにも大きな制限があります。
アルゴリズム タスクは、ニューラル ネットワークをエンドツーエンドで解釈するための有益なテスト場であることが証明されています。
以前の研究に基づいて、順列グループ $S_5$ と $S_6$ の演算を「理解」した、完全に接続された 1 つの隠れ層ネットワークを完全にリバース エンジニアリングしました。
モデルはグループ全体の真のサブグループ構造を発見し、置換グループのサブグループを使用してグループ演算を分解する神経回路に収束します。
モデルのメカニズムをリバース エンジニアリングして、理論が回路の機能を忠実に記述していることを確認した方法について説明します。
また、我々の研究をChughtaiらの研究と比較することで、解釈可能性研究を実施する際の現在の課題にも注意を向けています。
[4] これと同じ問題に対して別のアルゴリズムを見つけると主張しています。
要約(オリジナル)
The complex and unpredictable nature of deep neural networks prevents their safe use in many high-stakes applications. There have been many techniques developed to interpret deep neural networks, but all have substantial limitations. Algorithmic tasks have proven to be a fruitful test ground for interpreting a neural network end-to-end. Building on previous work, we completely reverse engineer fully connected one-hidden layer networks that have “grokked” the arithmetic of the permutation groups $S_5$ and $S_6$. The models discover the true subgroup structure of the full group and converge on neural circuits that decompose the group arithmetic using the permutation group’s subgroups. We relate how we reverse engineered the model’s mechanisms and confirmed our theory was a faithful description of the circuit’s functionality. We also draw attention to current challenges in conducting interpretability research by comparing our work to Chughtai et al. [4] which alleges to find a different algorithm for this same problem.
arxiv情報
著者 | Dashiell Stander,Qinan Yu,Honglu Fan,Stella Biderman |
発行日 | 2024-06-17 17:44:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google