TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting

要約

トランスフォーマーは、長時間のインタラクションを捕捉できるため、時系列予測で人気を集めています。
ただし、メモリとコンピューティング要件が高いため、長期予測には重大なボトルネックが生じます。
これに対処するために、パッチされた時系列での多変量予測と表現学習のための多層パーセプトロン (MLP) モジュールのみで構成される軽量ニューラル アーキテクチャである TSMixer を提案します。
コンピューター ビジョンにおける MLP-Mixer の成功に触発され、MLP-Mixer を時系列に適応させ、課題に対処し、精度を高めるために検証済みのコンポーネントを導入しました。
これには、階層やチャネル相関などの時系列プロパティを明示的にモデル化するために、オンライン調整ヘッドを MLP ミキサー バックボーンに接続するという新しい設計パラダイムが含まれています。
また、ノイズの多いチャネルの相互作用と多様なデータセットにわたる一般化を効果的に処理するための、新しいハイブリッド チャネル モデリングとシンプルなゲーティング アプローチの導入も提案します。
これらの軽量コンポーネントを組み込むことで、単純な MLP 構造の学習能力が大幅に強化され、最小限のコンピューティング使用量で複雑な Transformer モデルを上回るパフォーマンスを発揮します。
さらに、TSMixer のモジュール設計により、教師あり学習方法とマスクされた自己教師あり学習方法の両方との互換性が可能になり、時系列基盤モデルの有望なビルディング ブロックになります。
TSMixer は、予測において最先端の MLP モデルや Transformer モデルを 8 ~ 60% という大幅なマージンで上回っています。
また、パッチ トランスフォーマー モデルの最新の強力なベンチマークを (1 ~ 2%) 上回り、メモリと実行時間が大幅に (2 ~ 3 倍) 削減されます。
私たちのモデルのソース コードは、HuggingFace で PatchTSMixer として正式にリリースされています。
モデル: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer 例: https://github.com/ibm/tsfm/#notebooks-links

要約(オリジナル)

Transformers have gained popularity in time series forecasting for their ability to capture long-sequence interactions. However, their high memory and computing requirements pose a critical bottleneck for long-term forecasting. To address this, we propose TSMixer, a lightweight neural architecture exclusively composed of multi-layer perceptron (MLP) modules for multivariate forecasting and representation learning on patched time series. Inspired by MLP-Mixer’s success in computer vision, we adapt it for time series, addressing challenges and introducing validated components for enhanced accuracy. This includes a novel design paradigm of attaching online reconciliation heads to the MLP-Mixer backbone, for explicitly modeling the time-series properties such as hierarchy and channel-correlations. We also propose a novel Hybrid channel modeling and infusion of a simple gating approach to effectively handle noisy channel interactions and generalization across diverse datasets. By incorporating these lightweight components, we significantly enhance the learning capability of simple MLP structures, outperforming complex Transformer models with minimal computing usage. Moreover, TSMixer’s modular design enables compatibility with both supervised and masked self-supervised learning methods, making it a promising building block for time-series Foundation Models. TSMixer outperforms state-of-the-art MLP and Transformer models in forecasting by a considerable margin of 8-60%. It also outperforms the latest strong benchmarks of Patch-Transformer models (by 1-2%) with a significant reduction in memory and runtime (2-3X). The source code of our model is officially released as PatchTSMixer in the HuggingFace. Model: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer Examples: https://github.com/ibm/tsfm/#notebooks-links

arxiv情報

著者 Vijay Ekambaram,Arindam Jati,Nam Nguyen,Phanwadee Sinthong,Jayant Kalagnanam
発行日 2023-12-11 15:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 パーマリンク