Are Synthetic Time-series Data Really not as Good as Real Data?

要約

時系列データには、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限があります。
汎用的なデータ合成手法を統合すると、一般化の向上が期待できます。
ただし、現在の方法では、ジェネレーターの出力がすべての目に見えない実際のデータをカバーしていることを保証できません。
このペーパーでは、時系列表現学習機能を備えた汎用性の高いクロスドメイン データ合成フレームワークである InfoBoost を紹介します。
私たちは、実際のデータを必要とせずにモデルのトレーニングを可能にし、実際のデータでトレーニングされたモデルのパフォーマンスを超える、合成データに基づく方法を開発しました。
さらに、すべての時系列データに適用できる合成データに基づいてユニバーサル特徴抽出器をトレーニングしました。
私たちのアプローチは、複数のソースからの干渉、リズミカルな信号、ノイズ干渉、およびサンプリング ウィンドウの能力を超える長期間の特徴を克服します。
実験を通じて、当社の非ディープラーニング合成データにより、モデルは実際のデータを必要とせずに優れた再構成パフォーマンスと普遍的な明示的表現の抽出を実現できます。

要約(オリジナル)

Time-series data presents limitations stemming from data quality issues, bias and vulnerabilities, and generalization problem. Integrating universal data synthesis methods holds promise in improving generalization. However, current methods cannot guarantee that the generator’s output covers all unseen real data. In this paper, we introduce InfoBoost — a highly versatile cross-domain data synthesizing framework with time series representation learning capability. We have developed a method based on synthetic data that enables model training without the need for real data, surpassing the performance of models trained with real data. Additionally, we have trained a universal feature extractor based on our synthetic data that is applicable to all time-series data. Our approach overcomes interference from multiple sources rhythmic signal, noise interference, and long-period features that exceed sampling window capabilities. Through experiments, our non-deep-learning synthetic data enables models to achieve superior reconstruction performance and universal explicit representation extraction without the need for real data.

arxiv情報

著者 Fanzhe Fu,Junru Chen,Jing Zhang,Carl Yang,Lvbin Ma,Yang Yang
発行日 2024-02-01 13:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク