Simplifying and Understanding State Space Models with Diagonal Linear RNNs

要約

線形状態空間 (SSM) に基づくシーケンス モデルは、さまざまなモダリティにわたる長距離依存関係をモデル化するためのアーキテクチャの有望な選択肢として最近浮上しています。
ただし、それらは常に連続状態空間の離散化に依存しているため、表現と理解が複雑になります。
この研究では、離散化ステップを廃止し、バニラ対角線形 RNN ($\mathrm{DLR}$) に基づくモデルを提案します。
$\mathrm{DLR}$ は、概念的にははるかに単純であるにもかかわらず、長距離アリーナや生の音声分類を含むさまざまなタスクやベンチマークにおいて、以前に提案された SSM と同等のパフォーマンスを発揮することを経験的に示しています。
さらに、単純な演算から数万のトークンにわたる相互作用を伴う一連の $13$ の合成シーケンス間タスクを介して、SSM ($\mathrm{DLR}$ を含む) と注意ベースのモデルの表現力を特徴付けます。
入力シーケンスのシフト、平坦化された画像内の長い空間範囲にわたる共依存の視覚特徴の検出など。
SSM は、$\textit{少数}$ 畳み込みカーネルを介してモデル化できるタスクではほぼ完璧なパフォーマンスを報告しますが、$\textit{多数}$ のそのようなカーネルを必要とするタスク、特に目的のシーケンス操作が $ である場合には苦戦することがわかりました。
\textit{コンテキスト依存}$。
これらの制限にもかかわらず、$\mathrm{DLR}$ は、入力長が $8 の 2 つの高次推論タスク $\mathrm{ListOpsSubTrees}$ と $\mathrm{PathfinderSegmentation}\text{-}\mathrm{256}$ で高いパフォーマンスを達成します。
それぞれ K$ と $65K$ で、注意が現実的な選択肢ではない入力長 $262K$ の $\mathrm{PathfinderSegmentation}\text{-}\mathrm{512}$ で有望なパフォーマンスを示します。

要約(オリジナル)

Sequence models based on linear state spaces (SSMs) have recently emerged as a promising choice of architecture for modeling long range dependencies across various modalities. However, they invariably rely on discretization of a continuous state space, which complicates their presentation and understanding. In this work, we dispose of the discretization step, and propose a model based on vanilla Diagonal Linear RNNs ($\mathrm{DLR}$). We empirically show that, despite being conceptually much simpler, $\mathrm{DLR}$ is as performant as previously-proposed SSMs on a variety of tasks and benchmarks including Long Range Arena and raw speech classification. Moreover, we characterize the expressivity of SSMs (including $\mathrm{DLR}$) and attention-based models via a suite of $13$ synthetic sequence-to-sequence tasks involving interactions over tens of thousands of tokens, ranging from simple operations, such as shifting an input sequence, to detecting co-dependent visual features over long spatial ranges in flattened images. We find that while SSMs report near-perfect performance on tasks that can be modeled via $\textit{few}$ convolutional kernels, they struggle on tasks requiring $\textit{many}$ such kernels and especially when the desired sequence manipulation is $\textit{context-dependent}$. Despite these limitations, $\mathrm{DLR}$ reaches high performance on two higher-order reasoning tasks $\mathrm{ListOpsSubTrees}$ and $\mathrm{PathfinderSegmentation}\text{-}\mathrm{256}$ with input lengths $8K$ and $65K$ respectively, and gives encouraging performance on $\mathrm{PathfinderSegmentation}\text{-}\mathrm{512}$ with input length $262K$ for which attention is not a viable choice.

arxiv情報

著者 Ankit Gupta,Harsh Mehta,Jonathan Berant
発行日 2023-11-14 16:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク