Generative Pretrained Hierarchical Transformer for Time Series Forecasting

要約

最近の取り組みは、高度なネットワーク アーキテクチャと自己監視型の事前トレーニング戦略を導入することにより、時系列予測の精度を高めることに重点が置かれています。
それにもかかわらず、既存のアプローチには依然として 2 つの重大な欠点があります。
まず、これらの手法はトレーニングに単一のデータセットに依存することが多く、トレーニング データの規模が制限されているため、モデルの一般化可能性が制限されます。
第 2 に、ワンステップ生成スキーマが広く採用されており、これによりカスタマイズされた予測ヘッドが必要となり、出力系列の時間的依存性が見落とされ、また、異なる期間長設定の下ではトレーニング コストの増加にもつながります。
これらの問題に対処するために、GPHT と呼ばれる、予測用の新しい生成事前トレーニング階層トランスフォーマー アーキテクチャを提案します。
GPHT の主要な設計には 2 つの側面があります。
一方では、モデルの事前トレーニング用に、多様なデータ シナリオからのさまざまなデータセットで構成される混合データセットを構築することを推奨します。
このアプローチにより、トレーニング データの規模が大幅に拡大され、モデルが時系列データの共通点を明らかにできるようになり、特定のデータセットへの転送が容易になります。
一方、GPHT は、チャネルに依存しない仮定の下で自己回帰予測アプローチを採用し、出力系列の時間依存性を効果的にモデル化します。
重要なのは、カスタマイズされた予測ヘッドが必要ないため、単一のモデルで任意のホライズン設定で予測できることです。
主流の自己教師あり事前学習モデルと教師ありモデルを使用して、8 つのデータセットに対して十分な実験を行います。
結果は、GPHT が従来の長期予測タスクにおけるさまざまな微調整およびゼロ/少数ショット学習設定全体でベースライン モデルを上回り、事前トレーニングされた時系列大規模モデルの実現可能性を検証するためのサポートを提供することを実証しました。

要約(オリジナル)

Recent efforts have been dedicated to enhancing time series forecasting accuracy by introducing advanced network architectures and self-supervised pretraining strategies. Nevertheless, existing approaches still exhibit two critical drawbacks. Firstly, these methods often rely on a single dataset for training, limiting the model’s generalizability due to the restricted scale of the training data. Secondly, the one-step generation schema is widely followed, which necessitates a customized forecasting head and overlooks the temporal dependencies in the output series, and also leads to increased training costs under different horizon length settings. To address these issues, we propose a novel generative pretrained hierarchical transformer architecture for forecasting, named GPHT. There are two aspects of key designs in GPHT. On the one hand, we advocate for constructing a mixed dataset for pretraining our model, comprising various datasets from diverse data scenarios. This approach significantly expands the scale of training data, allowing our model to uncover commonalities in time series data and facilitating improved transfer to specific datasets. On the other hand, GPHT employs an auto-regressive forecasting approach under the channel-independent assumption, effectively modeling temporal dependencies in the output series. Importantly, no customized forecasting head is required, enabling a single model to forecast at arbitrary horizon settings. We conduct sufficient experiments on eight datasets with mainstream self-supervised pretraining models and supervised models. The results demonstrated that GPHT surpasses the baseline models across various fine-tuning and zero/few-shot learning settings in the traditional long-term forecasting task, providing support for verifying the feasibility of pretrained time series large models.

arxiv情報

著者 Zhiding Liu,Jiqian Yang,Mingyue Cheng,Yucong Luo,Zhi Li
発行日 2024-02-26 11:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク