Towards Generalisable Time Series Understanding Across Domains

要約

大規模なデータセットでの効率的な事前トレーニングによって駆動される自然言語処理とコンピュータービジョンの最近のブレークスルーにより、ファンデーションモデルは幅広いタスクに優れています。
ただし、既存の方法が大規模な時系列コーパスの不均一性に対処できないため、この可能性は時系列分析ではまだ完全には実現されていません。
医学から金融に至るまでのドメインで一般的である時系列は、変動カウント、分散関係、時間的パターン、サンプリング頻度などの特性が大幅に異なります。
これに対処するために、時系列の不均一性を処理するように特別に設計された新しいトレーニング前パラダイムを紹介します。
学習可能なドメインシグネチャ、デュアルマスキング戦略、および正規化された相互相関損失を備えたトーナイザーを提案し、一般的な時系列分析(OTI)のオープンモデルが大規模な時系列コーポラから効率的に学習できるようにします。
分類、回帰、予測などの多様なタスクの広範なベンチマークは、OTISが最新のベースラインよりも優れていることを示しています。
当社のコードと事前に訓練されたウェイトは、https://github.com/oetu/otisで入手できます。

要約(オリジナル)

Recent breakthroughs in natural language processing and computer vision, driven by efficient pre-training on large datasets, have enabled foundation models to excel on a wide range of tasks. However, this potential has not yet been fully realised in time series analysis, as existing methods fail to address the heterogeneity in large time series corpora. Prevalent in domains ranging from medicine to finance, time series vary substantially in characteristics such as variate count, inter-variate relationships, temporal patterns, and sampling frequency. To address this, we introduce a novel pre-training paradigm specifically designed to handle time series heterogeneity. We propose a tokeniser with learnable domain signatures, a dual masking strategy, and a normalised cross-correlation loss, enabling our open model for general time series analysis (OTiS) to efficiently learn from large time series corpora. Extensive benchmarking on diverse tasks, such as classification, regression, and forecasting, demonstrates that OTiS outperforms state-of-the-art baselines. Our code and pre-trained weights are available at https://github.com/oetu/otis.

arxiv情報

著者 Özgün Turgut,Philip Müller,Martin J. Menten,Daniel Rueckert
発行日 2025-01-31 14:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク