On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages

要約

選択的状態空間モデル (SSM) は、Transformer に代わる新たな選択肢であり、並列トレーニングと逐次推論という独自の利点を提供します。
これらのモデルはさまざまなタスクで有望なパフォーマンスを示していますが、その形式的な表現力と長さの一般化特性はまだ十分に研究されていません。
この研究では、通常の言語タスク、つまり有限状態オートマトン (FSA) エミュレーションにおける表現力と長さ汎化パフォーマンスを分析することにより、選択的 SSM の動作についての洞察を提供します。
私たちは、選択的高密度状態空間モデル (SD-SSM) を導入することで、最新の SSM ベースのアーキテクチャの特定の制限に対処します。SD-SSM は、単一層を使用してさまざまな正規言語タスクのセットに対して完全な長さの一般化を示す最初の選択的 SSM です。
これは、密な遷移行列の辞書、各タイム ステップで辞書行列の凸状の組み合わせを作成するソフトマックス選択メカニズム、および線形マップが続く層の正規化で構成される読み出しを利用します。
次に、可換および非可換オートマトンでの経験的なパフォーマンスを考慮して、対角選択的 SSM のバリアントを評価します。
実験結果を理論的考察を交えて説明します。
私たちのコードは https://github.com/IBM/selective-dense-state-space-model で入手できます。

要約(オリジナル)

Selective state-space models (SSMs) are an emerging alternative to the Transformer, offering the unique advantage of parallel training and sequential inference. Although these models have shown promising performance on a variety of tasks, their formal expressiveness and length generalization properties remain underexplored. In this work, we provide insight into the workings of selective SSMs by analyzing their expressiveness and length generalization performance on regular language tasks, i.e., finite-state automaton (FSA) emulation. We address certain limitations of modern SSM-based architectures by introducing the Selective Dense State-Space Model (SD-SSM), the first selective SSM that exhibits perfect length generalization on a set of various regular language tasks using a single layer. It utilizes a dictionary of dense transition matrices, a softmax selection mechanism that creates a convex combination of dictionary matrices at each time step, and a readout consisting of layer normalization followed by a linear map. We then proceed to evaluate variants of diagonal selective SSMs by considering their empirical performance on commutative and non-commutative automata. We explain the experimental results with theoretical considerations. Our code is available at https://github.com/IBM/selective-dense-state-space-model.

arxiv情報

著者 Aleksandar Terzić,Michael Hersche,Giacomo Camposampiero,Thomas Hofmann,Abu Sebastian,Abbas Rahimi
発行日 2024-12-26 20:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク