要約
線形時不変 (LTI) システムを利用する状態空間モデル (SSM) は、長いシーケンスの学習に効果があることで知られています。
最先端のパフォーマンスを達成するために、SSM は多くの場合、特別に設計された初期化を必要とし、状態行列のトレーニングは非常に小さい学習率で対数スケールで行われます。
これらの選択を統一的な観点から理解するために、ハンケル演算子理論のレンズを通して SSM を考察します。
これに基づいて、ハンケル演算子内でマルコフ パラメーターを利用する LTI システム用の HOPE と呼ばれる新しいパラメーター化スキームを開発します。
私たちのアプローチは、初期化とトレーニングの安定性を向上させるのに役立ち、より堅牢なパラメーター化につながります。
LTI システムの伝達関数を不均一にサンプリングすることでこれらのイノベーションを効率的に実装しており、標準 SSM と比較して必要なパラメータが少なくなります。
S4 や S4D などの HiPPO で初期化されたモデルに対してベンチマークを実行すると、Hankel オペレーターによってパラメータ化された SSM は、Long-Range Arena (LRA) タスクのパフォーマンスの向上を示します。
さらに、新しいパラメータ化により、固定時間ウィンドウ内で非減衰メモリが SSM に与えられます。これは、パッドされたノイズを含むシーケンシャル CIFAR-10 タスクによって経験的に裏付けられています。
要約(オリジナル)
State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. To achieve state-of-the-art performance, an SSM often needs a specifically designed initialization, and the training of state matrices is on a logarithmic scale with a very small learning rate. To understand these choices from a unified perspective, we view SSMs through the lens of Hankel operator theory. Building upon it, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. Our approach helps improve the initialization and training stability, leading to a more robust parameterization. We efficiently implement these innovations by nonuniformly sampling the transfer functions of LTI systems, and they require fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, our new parameterization endows the SSM with non-decaying memory within a fixed time window, which is empirically corroborated by a sequential CIFAR-10 task with padded noise.
arxiv情報
著者 | Annan Yu,Michael W. Mahoney,N. Benjamin Erichson |
発行日 | 2024-10-02 16:56:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google