Deep Double Descent for Time Series Forecasting: Avoiding Undertrained Models

要約

深層学習モデル、特に Transformers は、時系列予測を含むさまざまな領域で目覚ましい成果を上げています。
既存の時系列文献は主にモデル アーキテクチャの変更とデータ拡張手法に焦点を当てていますが、この論文では時系列のディープ ラーニング モデルのトレーニング スキーマを検討します。
アーキテクチャに関係なくモデルがどのようにトレーニングされるか。
私たちは、公開時系列データセットでトレーニングされたいくつかの Transformer モデルにおける深い二重降下の発生を調査するために広範な実験を実行します。
我々は、エポックごとの深い二重降下を実証し、より多くのエポックを使用して過学習を元に戻すことができることを示します。
これらの発見を活用して、テストした 72 のベンチマークのほぼ 70% で、長いシーケンスの時系列予測に関して最先端の結果を達成しました。
これは、文献にある多くのモデルが未開発の可能性を秘めている可能性があることを示唆しています。
さらに、データ拡張、モデル入力、モデルターゲット、モデルごとの時系列、計算予算をカバーする、トレーニングスキーマの変更を分類するための分類法を導入します。

要約(オリジナル)

Deep learning models, particularly Transformers, have achieved impressive results in various domains, including time series forecasting. While existing time series literature primarily focuses on model architecture modifications and data augmentation techniques, this paper explores the training schema of deep learning models for time series; how models are trained regardless of their architecture. We perform extensive experiments to investigate the occurrence of deep double descent in several Transformer models trained on public time series data sets. We demonstrate epoch-wise deep double descent and that overfitting can be reverted using more epochs. Leveraging these findings, we achieve state-of-the-art results for long sequence time series forecasting in nearly 70% of the 72 benchmarks tested. This suggests that many models in the literature may possess untapped potential. Additionally, we introduce a taxonomy for classifying training schema modifications, covering data augmentation, model inputs, model targets, time series per model, and computational budget.

arxiv情報

著者 Valentino Assandri,Sam Heshmati,Burhaneddin Yaman,Anton Iakovlev,Ariel Emiliano Repetur
発行日 2023-11-02 17:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク