Length independent generalization bounds for deep SSM architectures with stability constraints

要約

S4、S5、LRU など、長距離シーケンスでトレーニングされた多くの最先端モデルは、状態空間モデル (SSM) とニューラル ネットワークを組み合わせたシーケンシャル ブロックで構成されています。
この論文では、安定した SSM ブロックを備えたこの種のアーキテクチャに適用され、入力シーケンスの長さに依存しない PAC 境界を提供します。
SSM ブロックの安定性を強制することは文献における標準的な手法であり、パフォーマンスを向上させることが知られています。
SSM ブロックの安定性の程度が増加するにつれて、提案された PAC 境界が減少するため、我々の結果は、安定した SSM ブロックの使用に対する理論的正当性を提供します。

要約(オリジナル)

Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining State-Space Models (SSMs) with neural networks. In this paper we provide a PAC bound that holds for these kind of architectures with stable SSM blocks and does not depend on the length of the input sequence. Imposing stability of the SSM blocks is a standard practice in the literature, and it is known to help performance. Our results provide a theoretical justification for the use of stable SSM blocks as the proposed PAC bound decreases as the degree of stability of the SSM blocks increases.

arxiv情報

著者 Dániel Rácz,Mihály Petreczky,Bálint Daróczy
発行日 2024-05-30 17:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.LG, I.2.6 パーマリンク