StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

要約

この論文では、状態空間モデル (SSM) の長期記憶学習機能をパラメーター化の観点から調査します。
再パラメータ化を行わない状態空間モデルには、従来の RNN と同様のメモリ制限があることを証明します。つまり、状態空間モデルによって安定して近似できるターゲット関係は、指数関数的に減衰するメモリを持たなければなりません。
私たちの分析では、この「記憶の呪い」が反復重みが安定性境界に収束する結果であることが特定され、再パラメータ化手法が効果的である可能性があることが示唆されています。
この目的を達成するために、メモリ制限を効果的に解除する SSM の再パラメータ化手法のクラスを導入します。
近似機能の向上に加えて、再パラメータ化スキームの原則的な選択によって最適化の安定性も向上できることをさらに説明します。
合成データセット、言語モデル、画像分類を使用して調査結果を検証します。

要約(オリジナル)

In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this “curse of memory” as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications.

arxiv情報

著者 Shida Wang,Qianxiao Li
発行日 2024-05-02 15:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.DS パーマリンク