要約
この研究では、状態空間モデル (SSM) のコンテキスト内学習機能を調査し、私たちの知る限り、考えられる基礎的なメカニズムの最初の理論的説明を示します。
SSM に新しい重み構造を導入し、パラメータを微調整することなく、前の状態を観察した後、動的システムの次の状態を予測できるようにします。
これは、HiPPO フレームワークを拡張して、連続 SSM が任意の入力信号の導関数を近似できることを実証することによって実現されます。
具体的には、連続 SSM の明示的な重み構築を見つけ、微分近似に限界がある漸近誤差を提供します。
この連続 SSM を離散化すると、次の状態を予測する離散 SSM が生成されます。
最後に、パラメータ化の有効性を経験的に示します。
この作業は、SSM に基づくシーケンス モデルがコンテキスト内でどのように学習するかを理解するための最初のステップとなるはずです。
要約(オリジナル)
This work explores the in-context learning capabilities of State Space Models (SSMs) and presents, to the best of our knowledge, the first theoretical explanation of a possible underlying mechanism. We introduce a novel weight construction for SSMs, enabling them to predict the next state of any dynamical system after observing previous states without parameter fine-tuning. This is accomplished by extending the HiPPO framework to demonstrate that continuous SSMs can approximate the derivative of any input signal. Specifically, we find an explicit weight construction for continuous SSMs and provide an asymptotic error bound on the derivative approximation. The discretization of this continuous SSM subsequently yields a discrete SSM that predicts the next state. Finally, we demonstrate the effectiveness of our parameterization empirically. This work should be an initial step toward understanding how sequence models based on SSMs learn in context.
arxiv情報
著者 | Federico Arangath Joseph,Kilian Konstantin Haefeli,Noah Liniger,Caglar Gulcehre |
発行日 | 2024-07-19 15:34:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google