要約
状態空間モデル (SSM) は、二次二次的な実行時の複雑さにより、長距離の依存関係のモデリングと長いシーケンスへの効率的な拡張を必要とするタスクで優れた結果を示しています。
もともと連続信号用に設計された SSM は、視覚や音声などの多くのタスクで優れたパフォーマンスを示しています。
ただし、SSM は言語モデリング タスクでは依然として Transformer のパフォーマンスに遅れをとっています。
この研究では、長距離コンテキスト化のための SSM サブレイヤとシーケンスの短期表現のための Block Transformer サブレイヤを内部で結合する、Block-State Transformer (BST) という名前のハイブリッド レイヤを提案します。
私たちは、SSM とブロック単位の注意を統合する、完全に並列化可能な 3 つの異なるバリアントを研究します。
私たちのモデルは、言語モデリングの複雑さに関して同様の Transformer ベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示します。
さらに、ブロックステート トランスフォーマーは、モデルの並列化が採用されている場合、ブロックリカレント トランスフォーマーと比較して層レベルで 10 倍以上の速度の向上を示します。
要約(オリジナル)
State space models (SSMs) have shown impressive results on tasks that require modeling long-range dependencies and efficiently scale to long sequences owing to their subquadratic runtime complexity. Originally designed for continuous signals, SSMs have shown superior performance on a plethora of tasks, in vision and audio; however, SSMs still lag Transformer performance in Language Modeling tasks. In this work, we propose a hybrid layer named Block-State Transformer (BST), that internally combines an SSM sublayer for long-range contextualization, and a Block Transformer sublayer for short-term representation of sequences. We study three different, and completely parallelizable, variants that integrate SSMs and block-wise attention. We show that our model outperforms similar Transformer-based architectures on language modeling perplexity and generalizes to longer sequences. In addition, the Block-State Transformer demonstrates more than tenfold increase in speed at the layer level compared to the Block-Recurrent Transformer when model parallelization is employed.
arxiv情報
著者 | Mahan Fathi,Jonathan Pilault,Pierre-Luc Bacon,Christopher Pal,Orhan Firat,Ross Goroshin |
発行日 | 2023-06-15 22:48:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google