要約
時系列予測は、マルチヘッド アテンションなどのトークン予測メカニズムの導入により大幅に進歩しました。
ただし、これらの方法では、主に 2 次の計算コストと、時系列データの長距離依存関係をキャプチャする複雑さが原因で、言語モデリングと同じパフォーマンスを達成するのに苦労することがよくあります。
Mamba などの状態空間モデル (SSM) は、より大きなコンテキスト ウィンドウで長いシーケンスをモデル化できる線形 RNN を備えた効率的なソリューションを提供することで、これらの課題に対処することが期待されています。
ただし、精度とスケーラビリティには改善の余地がまだ残っています。
長期時系列予測のパフォーマンスを向上させるために、並列アーキテクチャでテストタイム トレーニング (TTT) モジュールを使用することを提案します。
標準ベンチマーク データセットでの広範な実験を通じて、特にシーケンス長と予測長が延長されるシナリオでは、TTT モジュールが Mamba ベースの TimeMachine を含む最先端のモデルよりも一貫して優れたパフォーマンスを発揮することを実証しました。
私たちの結果は、特に電力、交通、天気などの大規模なデータセットで、平均二乗誤差 (MSE) と平均絶対誤差 (MAE) が大幅に改善されたことを示しており、長距離の依存関係を捕捉する際の TTT の有効性を強調しています。
さらに、TTT フレームワーク内のさまざまな畳み込みアーキテクチャを調査し、小さなフィルターを使用した 1D 畳み込みのような単純な構成でも競争力のある結果を達成できることを示しています。
この研究は、時系列予測の新しいベンチマークを設定し、スケーラブルで高性能な予測モデルにおける将来の研究の基礎を築きます。
要約(オリジナル)
Time-series forecasting has seen significant advancements with the introduction of token prediction mechanisms such as multi-head attention. However, these methods often struggle to achieve the same performance as in language modeling, primarily due to the quadratic computational cost and the complexity of capturing long-range dependencies in time-series data. State-space models (SSMs), such as Mamba, have shown promise in addressing these challenges by offering efficient solutions with linear RNNs capable of modeling long sequences with larger context windows. However, there remains room for improvement in accuracy and scalability. We propose the use of Test-Time Training (TTT) modules in a parallel architecture to enhance performance in long-term time series forecasting. Through extensive experiments on standard benchmark datasets, we demonstrate that TTT modules consistently outperform state-of-the-art models, including the Mamba-based TimeMachine, particularly in scenarios involving extended sequence and prediction lengths. Our results show significant improvements in Mean Squared Error (MSE) and Mean Absolute Error (MAE), especially on larger datasets such as Electricity, Traffic, and Weather, underscoring the effectiveness of TTT in capturing long-range dependencies. Additionally, we explore various convolutional architectures within the TTT framework, showing that even simple configurations like 1D convolution with small filters can achieve competitive results. This work sets a new benchmark for time-series forecasting and lays the groundwork for future research in scalable, high-performance forecasting models.
arxiv情報
著者 | Panayiotis Christou,Shichu Chen,Xupeng Chen,Parijat Dube |
発行日 | 2024-10-02 16:40:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google