要約
トランスフォーマーは、長時間のインタラクションを捕捉できるため、時系列予測で人気を集めています。
ただし、メモリとコンピューティング要件が高いため、長期予測には重大なボトルネックが生じます。
これに対処するために、多層パーセプトロン (MLP) モジュールのみで構成される軽量ニューラル アーキテクチャである TSMixer を提案します。
TSMixer は、パッチされた時系列での多変量予測と表現学習用に設計されており、Transformers の効率的な代替手段を提供します。
私たちのモデルは、コンピューター ビジョンにおける MLP-Mixer モデルの成功からインスピレーションを得ています。
Vision MLP-Mixer を時系列に適応させる際の課題を実証し、精度を高めるために経験的に検証されたコンポーネントを導入します。
これには、階層やチャネル相関などの時系列プロパティを明示的にモデル化するために、オンライン調整ヘッドを MLP ミキサー バックボーンに接続するという新しい設計パラダイムが含まれています。
また、既存のパッチ チャネル ミキシング手法における一般的な課題である、ノイズの多いチャネルの相互作用と多様なデータセットにわたる一般化を効果的に処理するためのハイブリッド チャネル モデリング アプローチも提案します。
さらに、重要な機能に優先順位を付けるために、シンプルなゲート アテンション メカニズムがバックボーンに導入されています。
これらの軽量コンポーネントを組み込むことで、単純な MLP 構造の学習能力が大幅に強化され、最小限のコンピューティング使用量で複雑な Transformer モデルを上回るパフォーマンスを発揮します。
さらに、TSMixer のモジュール設計により、教師あり学習方法とマスクされた自己教師あり学習方法の両方との互換性が可能になり、時系列基盤モデルの有望なビルディング ブロックになります。
TSMixer は、予測において最先端の MLP モデルや Transformer モデルを 8 ~ 60% という大幅なマージンで上回っています。
また、パッチ トランスフォーマー モデルの最新の強力なベンチマークを (1 ~ 2%) 上回り、メモリと実行時間が大幅に (2 ~ 3 倍) 削減されます。
要約(オリジナル)
Transformers have gained popularity in time series forecasting for their ability to capture long-sequence interactions. However, their high memory and computing requirements pose a critical bottleneck for long-term forecasting. To address this, we propose TSMixer, a lightweight neural architecture exclusively composed of multi-layer perceptron (MLP) modules. TSMixer is designed for multivariate forecasting and representation learning on patched time series, providing an efficient alternative to Transformers. Our model draws inspiration from the success of MLP-Mixer models in computer vision. We demonstrate the challenges involved in adapting Vision MLP-Mixer for time series and introduce empirically validated components to enhance accuracy. This includes a novel design paradigm of attaching online reconciliation heads to the MLP-Mixer backbone, for explicitly modeling the time-series properties such as hierarchy and channel-correlations. We also propose a Hybrid channel modeling approach to effectively handle noisy channel interactions and generalization across diverse datasets, a common challenge in existing patch channel-mixing methods. Additionally, a simple gated attention mechanism is introduced in the backbone to prioritize important features. By incorporating these lightweight components, we significantly enhance the learning capability of simple MLP structures, outperforming complex Transformer models with minimal computing usage. Moreover, TSMixer’s modular design enables compatibility with both supervised and masked self-supervised learning methods, making it a promising building block for time-series Foundation Models. TSMixer outperforms state-of-the-art MLP and Transformer models in forecasting by a considerable margin of 8-60%. It also outperforms the latest strong benchmarks of Patch-Transformer models (by 1-2%) with a significant reduction in memory and runtime (2-3X).
arxiv情報
著者 | Vijay Ekambaram,Arindam Jati,Nam Nguyen,Phanwadee Sinthong,Jayant Kalagnanam |
発行日 | 2023-06-26 09:17:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google