Mlinear: Rethink the Linear Model for Time-series Forecasting

要約

近年、時系列予測研究では、高度な予測モデルの設計のみに焦点を当てるのではなく、時系列データの性質、例えばチャネル非依存性(CI)やチャネル依存性(CD)の分析にますます焦点が当てられるようになり、大きな進歩が見られる。しかし、現在の研究は主にCIまたはCDのどちらか一方にのみ焦点を当てており、相乗効果を得るためにこれら2つの相反する性質を効果的に組み合わせるという課題は未解決のままである。本論文では、CIとCDの相反する性質を注意深く検討し、これまで効果的な回答が得られていない実際的な疑問、例えば「より良い予測性能を達成するために、時系列のCIとCDの性質を効果的に混合するにはどうすればよいか」を提起する。この疑問に答えるために、我々はMlinear(MIX-Linear)を提案する。Mlinearは主に線形層に基づいたシンプルで効果的な手法である。Mlinearの設計思想は主に2つの側面を含む:(1)異なる入力時系列の時間意味論に基づいてCIとCDの特性を動的に調整すること、(2)「CI予測器」と「CD予測器」の個々の性能を調整するために深い監視を提供すること。さらに、経験的に、複数のデータセットにおいて、広く用いられている平均二乗誤差(MSE)を大幅に上回る新しい損失関数を導入する。複数の分野をカバーし、広く利用されている時系列データセットでの実験により、同一のシーケンス入力(336または512)を持つ7つのデータセットにおいて、MSEとMAEメトリクスの観点から、最新のTransformerベースの手法であるPatchTSTよりも我々の手法が優れていることが実証された。具体的には、本手法はPatchTSTを336シーケンス長入力で21:3、512シーケンス長入力で29:10の比率で大幅に上回る。さらに、本手法は、学習時間と推論時間の両方を考慮した単位レベルにおいて、10回$の効率優位性を持つ。

要約(オリジナル)

Recently, significant advancements have been made in time-series forecasting research, with an increasing focus on analyzing the nature of time-series data, e.g, channel-independence (CI) and channel-dependence (CD), rather than solely focusing on designing sophisticated forecasting models. However, current research has primarily focused on either CI or CD in isolation, and the challenge of effectively combining these two opposing properties to achieve a synergistic effect remains an unresolved issue. In this paper, we carefully examine the opposing properties of CI and CD, and raise a practical question that has not been effectively answered, e.g.,’How to effectively mix the CI and CD properties of time series to achieve better predictive performance?’ To answer this question, we propose Mlinear (MIX-Linear), a simple yet effective method based mainly on linear layers. The design philosophy of Mlinear mainly includes two aspects:(1) dynamically tuning the CI and CD properties based on the time semantics of different input time series, and (2) providing deep supervision to adjust the individual performance of the ‘CI predictor’ and ‘CD predictor’. In addition, empirically, we introduce a new loss function that significantly outperforms the widely used mean squared error (MSE) on multiple datasets. Experiments on time-series datasets covering multiple fields and widely used have demonstrated the superiority of our method over PatchTST which is the lateset Transformer-based method in terms of the MSE and MAE metrics on 7 datasets with identical sequence inputs (336 or 512). Specifically, our method significantly outperforms PatchTST with a ratio of 21:3 at 336 sequence length input and 29:10 at 512 sequence length input. Additionally, our approach has a 10 $\times$ efficiency advantage at the unit level, taking into account both training and inference times.

arxiv情報

著者 Wei Li,Xiangxu Meng,Chuhao Chen,Jianing Chen
発行日 2023-08-03 16:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク