Transformer Dynamics: A neuroscientific approach to interpretability of large language models

要約

人工知能モデルが規模と能力が爆発しているため、内部メカニズムを理解することは依然として重要な課題です。
神経科学における動的システムアプローチの成功に触発されて、ここでは、深い学習システムで計算を研究するための新しいフレームワークを提案します。
トランスモデルの残差ストリーム(RS)に焦点を当て、レイヤー間で進化する動的システムとしてそれを概念化します。
個々のRSユニットのアクティブ化は、RSが非主要な基盤であるにもかかわらず、レイヤー間で強い連続性を示すことがわかります。
RSの活性化は加速し、層上でより密度が高くなりますが、個々のユニットは不安定な周期軌道を追跡します。
縮小次元空間では、RSは下層にアトラクターのようなダイナミクスを備えた曲がった軌道に従います。
これらの洞察は、動的システムの理論と機械的解釈性を橋渡しし、理論的な厳密さと大規模なデータ分析を組み合わせて、現代のニューラルネットワークの理解を促進する「AIの神経科学」の基礎を確立します。

要約(オリジナル)

As artificial intelligence models have exploded in scale and capability, understanding of their internal mechanisms remains a critical challenge. Inspired by the success of dynamical systems approaches in neuroscience, here we propose a novel framework for studying computations in deep learning systems. We focus on the residual stream (RS) in transformer models, conceptualizing it as a dynamical system evolving across layers. We find that activations of individual RS units exhibit strong continuity across layers, despite the RS being a non-privileged basis. Activations in the RS accelerate and grow denser over layers, while individual units trace unstable periodic orbits. In reduced-dimensional spaces, the RS follows a curved trajectory with attractor-like dynamics in the lower layers. These insights bridge dynamical systems theory and mechanistic interpretability, establishing a foundation for a ‘neuroscience of AI’ that combines theoretical rigor with large-scale data analysis to advance our understanding of modern neural networks.

arxiv情報

著者 Jesseba Fernando,Grigori Guitchounts
発行日 2025-02-17 18:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク