要約
State Stream Transformer(SST)を紹介します。これは、従来の変圧器モデルの基本的な制限に対処することにより、先立った重みで潜在的に潜在的な推論行動と能力を明らかにする新しいLLMアーキテクチャを紹介します。
SSTは、自己回帰世代を通じて永続的な潜在プロセスを維持および進化させる加重減衰で、スライドウィンドウ潜在状態(FFN)キャッシュを導入します。
同じ凍結重量を使用してベースとSSTアーキテクチャを比較する制御された実験を通じて、このアーキテクチャの変更だけで、緊急のメタ認知行動によって証明されるように、何らかの形の潜在的な高次処理によって最もよく説明されるように見える強化された推論能力が可能になることを実証します。
これらの動作は、確率的変動や学習した応答パターンなどの交絡因子を排除するように設計された制御条件下で持続します。
潜在的な状態分布と処理ダイナミクスの分析は、これらの現象の原因となるのが「状態の流れ」のみであるという証拠を提供します。
定量的評価では、SSTは2つの推論ベンチマークでベースモデルで大幅なパフォーマンスの改善を達成し、GSM-8K(0ショット)で89.01 \%の精度とARCチャレンジ(0ショットCOT)で91.04 \%に達します。
これらの調査結果は、潜在的な状態空間での永続的な計算により、人工知能システムの理解に影響を与え、根本的に異なる情報処理と内部推論戦略を可能にすることを示しています。
要約(オリジナル)
We introduce the State Stream Transformer (SST), a novel LLM architecture that reveals emergent reasoning behaviours and capabilities latent in pretrained weights through addressing a fundamental limitation in traditional transformer models: the lack of latent computational continuity across autoregressive generations in the state space. SST introduces a sliding window latent state (FFN) cache with weighted decay that maintains and evolves persistent latent processes throughout autoregressive generations. Through controlled experiments comparing base and SST architectures using the same frozen weights, we demonstrate that this architectural modification alone enables enhanced reasoning capabilities which appear best explained by some form of potential higher-order processing, as evidenced by emergent metacognitive behaviours. These behaviours persist under controlled conditions designed to eliminate confounding factors such as stochastic variation or learned response patterns. Analysis of latent state distributions and processing dynamics provides evidence that it is solely the ‘state stream’ that is responsible for these phenomena. In quantitative evaluations, the SST achieves substantial performance improvements over the base model on two reasoning benchmarks, reaching 89.01\% accuracy on GSM-8K (0-shot) and 91.04\% on ARC Challenge (0-shot CoT). These findings indicate that persistent computation in the latent state space enables fundamentally different information processing and internal reasoning strategies, with implications for our understanding of artificial intelligence systems.
arxiv情報
著者 | Thea Aviss |
発行日 | 2025-01-30 14:03:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google