要約
最近、線形状態空間モデル (SSM) に基づくリカレント モデルは、言語モデリング (LM) においてトランスフォーマーと競合する有望なパフォーマンスを示しています。
しかし、そのようなモデルの原理的な機能についてはほとんど理解されておらず、より優れた LM アーキテクチャの探索に有用な指針を提供できる可能性があります。
このような SSM の容量を、変圧器や従来の RNN の容量と比較した、包括的な理論的研究を紹介します。
SSM と変圧器には、重複しているものの異なる長所があることがわかりました。
スターフリー状態追跡では、SSM は、変圧器が正確に表現するのが難しい問題に対する直接的かつ正確なソリューションを実装します。
また、スタックをシミュレートしなくても、最適なメモリを備えた有界階層構造をモデル化することもできます。
一方で、現在の SSM の設計上の選択により、表現力が制限されていることを確認しました。
SSM と LM 研究への影響について議論し、最近の SSM である Mamba に関する結果を実証的に検証します。
要約(オリジナル)
Recently, recurrent models based on linear state space models (SSMs) have shown promising performance in language modeling (LM), competititve with transformers. However, there is little understanding of the in-principle abilities of such models, which could provide useful guidance to the search for better LM architectures. We present a comprehensive theoretical study of the capacity of such SSMs as it compares to that of transformers and traditional RNNs. We find that SSMs and transformers have overlapping but distinct strengths. In star-free state tracking, SSMs implement straightforward and exact solutions to problems that transformers struggle to represent exactly. They can also model bounded hierarchical structure with optimal memory even without simulating a stack. On the other hand, we identify a design choice in current SSMs that limits their expressive power. We discuss implications for SSM and LM research, and verify results empirically on a recent SSM, Mamba.
arxiv情報
著者 | Yash Sarrof,Yana Veitsman,Michael Hahn |
発行日 | 2024-05-27 17:46:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google