Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series

要約

大規模な事前学習済みモデルは、言語や視覚タスクのゼロ/少数ショット学習では優れているが、多変量時系列(TS)予測では、多様なデータ特性のために課題に直面する。そのため、最近の研究では、事前に訓練されたTS予測モデルの開発に焦点が当てられている。これらのモデルは、ゼロから構築されたものであれ、大規模言語モデル(LLM)から適応されたものであれ、ゼロ/少数ショットの予測タスクに優れている。しかし、性能の遅さ、計算負荷の高さ、チャネル間相関や外生的相関の無視といった制約がある。この問題に対処するため、我々はTiny Time Mixers (TTM)を導入する。TTMは、効果的な転移学習機能を持つコンパクトなモデル(1Mパラメータから開始)であり、公開TSデータセットのみで学習される。TTMは、軽量なTSMixerアーキテクチャに基づき、適応的パッチ、多様な解像度サンプリング、解像度プレフィックスチューニングなどの革新的な技術を取り入れ、最小限のモデル容量で様々なデータセットの解像度の事前学習に対応する。さらに、チャネル相関を捕捉し、微調整中に外来信号を注入するために、マルチレベル・モデリングを採用しています。TTMは、ゼロ/少数ショットの予測において、既存の一般的なベンチマークを(4-40%)上回り、同時に計算要件を大幅に削減する。さらに、TTMは軽量であり、CPUのみのマシンでも実行可能であるため、使い勝手が向上し、リソースに制約のある環境での幅広い採用が促進される。TTMの初期型(TTM-Q)のモデル重みは、https://huggingface.co/ibm-granite/granite-timeseries-ttm-v1。 より洗練された型(TTM-B、TTM-E、TTM-A)のモデル重みは、近日中に公開される予定である。TTMのソースコードはhttps://github.com/ibm-granite/granite-tsfm/tree/main/tsfm_public/models/tinytimemixer。

要約(オリジナル)

Large pre-trained models excel in zero/few-shot learning for language and vision tasks but face challenges in multivariate time series (TS) forecasting due to diverse data characteristics. Consequently, recent research efforts have focused on developing pre-trained TS forecasting models. These models, whether built from scratch or adapted from large language models (LLMs), excel in zero/few-shot forecasting tasks. However, they are limited by slow performance, high computational demands, and neglect of cross-channel and exogenous correlations. To address this, we introduce Tiny Time Mixers (TTM), a compact model (starting from 1M parameters) with effective transfer learning capabilities, trained exclusively on public TS datasets. TTM, based on the light-weight TSMixer architecture, incorporates innovations like adaptive patching, diverse resolution sampling, and resolution prefix tuning to handle pre-training on varied dataset resolutions with minimal model capacity. Additionally, it employs multi-level modeling to capture channel correlations and infuse exogenous signals during fine-tuning. TTM outperforms existing popular benchmarks in zero/few-shot forecasting by (4-40\%), while reducing computational requirements significantly. Moreover, TTMs are lightweight and can be executed even on CPU-only machines, enhancing usability and fostering wider adoption in resource-constrained environments. Model weights for our initial variant (TTM-Q) are available at https://huggingface.co/ibm-granite/granite-timeseries-ttm-v1. Model weights for more sophisticated variants (TTM-B, TTM-E, and TTM-A) will be shared soon. The source code for TTM can be accessed at https://github.com/ibm-granite/granite-tsfm/tree/main/tsfm_public/models/tinytimemixer.

arxiv情報

著者 Vijay Ekambaram,Arindam Jati,Pankaj Dayama,Sumanta Mukherjee,Nam H. Nguyen,Wesley M. Gifford,Chandra Reddy,Jayant Kalagnanam
発行日 2024-06-03 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク