xLSTM: Extended Long Short-Term Memory

要約

1990 年代に、コンスタント エラー カルーセルとゲーティングが長短期記憶 (LSTM) の中心的なアイデアとして導入されました。
それ以来、LSTM は時の試練に耐え、数多くの深層学習の成功事例に貢献し、特に最初の大規模言語モデル (LLM) を構成しました。
しかし、並列化可能なセルフアテンションを中核とした Transformer テクノロジーの出現は、規模で LSTM を上回る新時代の幕開けを告げました。
ここで単純な疑問が生じます。最新の LLM の最新技術を活用しながら、LSTM の既知の制限を緩和しながら、LSTM を数十億のパラメーターに拡張する場合、言語モデリングはどこまでできるでしょうか?
まず、適切な正規化および安定化手法を使用した指数関数的なゲーティングを導入します。
次に、LSTM メモリ構造を変更して、(i) スカラー メモリ、スカラー更新、および新しいメモリ混合を備えた sLSTM、(ii) 行列メモリと共分散更新ルールで完全に並列化可能な mLSTM を取得します。
これらの LSTM 拡張機能を残りのブロック バックボーンに統合すると、xLSTM ブロックが生成され、その後、残りの xLSTM アーキテクチャにスタックされます。
指数関数的ゲートと変更されたメモリ構造により、xLSTM 機能が向上し、パフォーマンスとスケーリングの両方において、最先端のトランスフォーマーや状態空間モデルと比較して有利なパフォーマンスを実現します。

要約(オリジナル)

In the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.

arxiv情報

著者 Maximilian Beck,Korbinian Pöppel,Markus Spanring,Andreas Auer,Oleksandra Prudnikova,Michael Kopp,Günter Klambauer,Johannes Brandstetter,Sepp Hochreiter
発行日 2024-12-06 15:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク