Online Data Augmentation for Forecasting with Deep Learning

要約

ディープラーニングアプローチは、複数の一変量時系列を含むデータセットを含む予測タスクに取り組むために、ますます使用されるようになってきている。これらの手法の適用を成功させるための重要な要因は、十分な大きさのトレーニングサンプルサイズであるが、これは常に利用できるとは限らない。このようなシナリオでは、データセットを補強するために合成データ生成技術を適用することができる。データ増強は通常、モデルをトレーニングする前にオフラインで適用される。しかし、ミニバッチで学習する場合、バッチによっては、元のデータ特性とうまく整合しない不釣り合いな数の合成サンプルが含まれることがある。本研究では、ニューラルネットワークの学習中に合成サンプルを生成するオンラインデータ増強フレームワークを導入する。各バッチに元のサンプルと一緒に合成サンプルを作成することで、学習プロセスを通して実データと合成データの間のバランスの取れた表現を維持する。このアプローチは、ニューラルネットワーク学習の反復的な性質に自然に適合し、大規模な拡張データセットを保存する必要性を排除する。我々は、6つのベンチマークデータセット、3つのニューラルアーキテクチャ、および7つの合成データ生成手法から得られた3797の時系列を用いて、提案するフレームワークを検証した。実験の結果、オンラインによるデータ補強は、オフラインによるデータ補強や補強なしのアプローチと比較して、より優れた予測性能につながることが示唆された。フレームワークと実験は公開されている。

要約(オリジナル)

Deep learning approaches are increasingly used to tackle forecasting tasks involving datasets with multiple univariate time series. A key factor in the successful application of these methods is a large enough training sample size, which is not always available. Synthetic data generation techniques can be applied in these scenarios to augment the dataset. Data augmentation is typically applied offline before training a model. However, when training with mini-batches, some batches may contain a disproportionate number of synthetic samples that do not align well with the original data characteristics. This work introduces an online data augmentation framework that generates synthetic samples during the training of neural networks. By creating synthetic samples for each batch alongside their original counterparts, we maintain a balanced representation between real and synthetic data throughout the training process. This approach fits naturally with the iterative nature of neural network training and eliminates the need to store large augmented datasets. We validated the proposed framework using 3797 time series from 6 benchmark datasets, three neural architectures, and seven synthetic data generation techniques. The experiments suggest that online data augmentation leads to better forecasting performance compared to offline data augmentation or no augmentation approaches. The framework and experiments are publicly available.

arxiv情報

著者 Vitor Cerqueira,Moisés Santos,Luis Roque,Yassine Baghoussi,Carlos Soares
発行日 2025-01-03 11:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク