Structured Token Retention and Computational Memory Paths in Large Language Models

要約

メモリ保持メカニズムは、拡張シーケンスを処理するために設計された計算アーキテクチャの効率を決定する上で中心的な役割を果たします。
トークン管理のための従来の方法は、しばしば固定保持閾値を課したり、均一な注意の重量分布に依存したりし、拡張されたシーケンスモデリングにおける非効率的なメモリ利用と早期情報の損失につながります。
構造化トークン保持(STR)は、コンテキストの重要性に基づいてトークンの持続性を動的に調整する確率的選択フレームワークを導入し、計算リソースが意味的に関連する要素に割り当てられるようにします。
計算メモリパス(CMP)は、階層メモリの割り当てを通じてこのフレームワークを拡張し、トークン埋め込みの構造化された再配置を通じて保持効率を改良します。
ベースラインモデルとの比較評価は、STRとCMPが長い入力シーケンス全体でトークンの生存率を改善し、処理層全体の累積誤差伝播を減らすことを示しています。
実験結果は、計算オーバーヘッドの減少をさらに示し、文脈的一貫性を分解することなく推論速度を改善します。
トークン分布分析により、構造化されたメモリ割り当てが注意重量計算の過度の冗長性を防ぎ、大規模生成アーキテクチャの情報検索効率を最適化することが明らかになりました。
STRとCMPのオープンソースモデルへの統合は、構造化されたメモリ保持方法論の適応性を示しており、生成テキスト処理、長いコンテキストの理解、およびスケーラブルなシーケンスモデリングにおける適用性を強調しています。

要約(オリジナル)

Memory retention mechanisms play a central role in determining the efficiency of computational architectures designed for processing extended sequences. Conventional methods for token management often impose fixed retention thresholds or rely on uniform attention weight distributions, leading to inefficient memory utilization and premature information loss in extended sequence modeling. Structured Token Retention (STR) introduces a probabilistic selection framework that dynamically adjusts token persistence based on contextual significance, ensuring that computational resources are allocated to semantically relevant elements. Computational Memory Paths (CMP) extend this framework through hierarchical memory allocation, refining retention efficiency through structured reallocation of token embeddings. Comparative assessments against baseline models demonstrate that STR and CMP improve token survival rates across long input sequences while reducing cumulative error propagation across processing layers. Experimental results further indicate reductions in computational overhead, improving inference speed without degrading contextual coherence. Token distribution analyses reveal that structured memory allocation prevents excessive redundancy in attention weight calculations, optimizing information retrieval efficiency in large-scale generative architectures. The integration of STR and CMP into an open-source model illustrates the adaptability of structured memory retention methodologies, highlighting their applicability in generative text processing, long-context comprehension, and scalable sequence modeling.

arxiv情報

著者 Jonathan Delena,Augustin Moreau,Dominic Ravensdale,Frederick Chatterton
発行日 2025-02-05 11:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク