要約
ニューラル ネットワーク (NN) ではどのような種類の数値表現が出現しますか?
NN は抽象的で変更可能なスロットのような数値変数をどの程度誘導しますか?また、これらの表現はどのような状況で出現しますか?
これらの表現は学習によってどのように変化するのでしょうか?また、異なる NN 間で統一された方法でニューラル実装を理解するにはどうすればよいでしょうか?
この研究では、数値タスクでネクスト トークン予測 (NTP) 目標を使用してシーケンス ベースのニューラル システムを最初にトレーニングすることで、これらの質問に取り組みます。
次に、因果的抽象化または記号アルゴリズムのレンズを通してニューラル ソリューションを理解しようとします。
私たちは、因果的介入と視覚化手法の組み合わせを使用して、人工ニューラル モデルが純粋に NTP の目的から交換可能で可変の潜在数変数の類似体を実際に開発していることを発見しました。
次に、タスクとモデル アーキテクチャのバリエーションがモデルの学習された解にどのような影響を与えるかを尋ねると、これらのシンボルのような数値表現がタスクのすべてのバリエーションに対して形成されるわけではなく、トランスフォーマーは反復的な対応物とは著しく異なる方法で問題を解決することがわかります。
。
次に、トレーニングの過程でシンボルのような変数がどのように変化するかを示し、モデルのタスクのパフォーマンスとシンボルのような表現の調整との間の強い相関関係を見つけます。
最後に、すべての場合において、これらのニューラル シンボルにはある程度の勾配が存在することを示し、ニューラル ネットワークが数値タスクを実行する方法についての単純で解釈可能な象徴的なストーリーを見つけることの難しさを強調します。
総合すると、私たちの結果は、ニューラル ネットワークが解釈可能な数認識の記号プログラムを近似できるという見解と一致していますが、ニューラル ネットワークが近似する特定のプログラムとその近似の範囲は、ネットワーク アーキテクチャ、トレーニング データ、範囲に応じて大きく異なります。
トレーニングの量とネットワークのサイズ。
要約(オリジナル)
What types of numeric representations emerge in Neural Networks (NNs)? To what degree do NNs induce abstract, mutable, slot-like numeric variables, and in what situations do these representations emerge? How do these representations change over learning, and how can we understand the neural implementations in ways that are unified across different NNs? In this work, we approach these questions by first training sequence based neural systems using Next Token Prediction (NTP) objectives on numeric tasks. We then seek to understand the neural solutions through the lens of causal abstractions or symbolic algorithms. We use a combination of causal interventions and visualization methods to find that artificial neural models do indeed develop analogs of interchangeable, mutable, latent number variables purely from the NTP objective. We then ask how variations on the tasks and model architectures affect the models’ learned solutions to find that these symbol-like numeric representations do not form for every variant of the task, and transformers solve the problem in a notably different way than their recurrent counterparts. We then show how the symbol-like variables change over the course of training to find a strong correlation between the models’ task performance and the alignment of their symbol-like representations. Lastly, we show that in all cases, some degree of gradience exists in these neural symbols, highlighting the difficulty of finding simple, interpretable symbolic stories of how neural networks perform numeric tasks. Taken together, our results are consistent with the view that neural networks can approximate interpretable symbolic programs of number cognition, but the particular program they approximate and the extent to which they approximate it can vary widely, depending on the network architecture, training data, extent of training, and network size.
arxiv情報
著者 | Satchel Grant,Noah D. Goodman,James L. McClelland |
発行日 | 2025-01-10 18:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google