NuTime: Numerically Multi-Scaled Embedding for Large-Scale Time-Series Pretraining

要約

時系列自己教師ありモデルに関する最近の研究では、意味表現の学習において大きな期待が寄せられています。
ただし、それは小規模なデータセット、たとえば数千の時間シーケンスに限定されています。
この研究では、時系列データの数値特性に合わせて調整された重要な技術的貢献を行い、モデルを大規模なデータセット (数百万の時系列など) に拡張できるようにします。
まず入力を重複しないウィンドウに分割することで、Transformer アーキテクチャを採用します。
次に、各ウィンドウは、正規化された形状と、各ウィンドウ内の平均と標準偏差を示す 2 つのスカラー値によって特徴付けられます。
高次元空間に任意の数値振幅を持つ可能性のあるスカラー値を埋め込むために、スカラーのすべての可能な数値スケールを列挙する数値的にマルチスケールの埋め込みモジュールを提案します。
このモデルは、既存の公開データを結合して収集された 100 万シーケンスを超える大規模なデータセットに対して、単純な対照的な目的を使用して事前トレーニングを受けます。
私たちは、多数の単変量および多変量分類タスク、少数ショット学習、教師なしクラスタリング、および異常検出ベンチマークでの転送パフォーマンスを研究します。
私たちの方法は、以前の事前トレーニングアプローチに対して顕著な改善を示し、ドメイン固有の非学習ベースの方法と比較しても、新しい最先端技術を確立します。
コードは \url{https://github.com/chenguolin/NuTime} から入手できます。

要約(オリジナル)

Recent research on time-series self-supervised models shows great promise in learning semantic representations. However, it has been limited to small-scale datasets, e.g., thousands of temporal sequences. In this work, we make key technical contributions that are tailored to the numerical properties of time-series data and allow the model to scale to large datasets, e.g., millions of temporal sequences. We adopt the Transformer architecture by first partitioning the input into non-overlapping windows. Each window is then characterized by its normalized shape and two scalar values denoting the mean and standard deviation within each window. To embed scalar values that may possess arbitrary numerical amplitudes in a high-dimensional space, we propose a numerically multi-scaled embedding module enumerating all possible numerical scales for the scalars. The model undergoes pretraining with a simple contrastive objective on a large-scale dataset over a million sequences collected by merging existing public data. We study its transfer performance on a number of univariate and multivariate classification tasks, few shot learning, unsupervised clustering and anomaly detection benchmarks. Our method exhibits remarkable improvement against previous pretraining approaches and establishes the new state of the art, even compared with domain-specific non-learning-based methods. Code is available at: \url{https://github.com/chenguolin/NuTime}.

arxiv情報

著者 Chenguo Lin,Xumeng Wen,Wei Cao,Congrui Huang,Jiang Bian,Stephen Lin,Zhirong Wu
発行日 2024-07-10 15:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク