要約
大規模な事前トレーニング済みモデルは、言語タスクや視覚タスクのゼロ/数ショット学習には優れていますが、多様なデータ特性により、多変量時系列 (TS) 予測では課題に直面しています。
その結果、最近の研究努力は、事前トレーニングされた TS 予測モデルの開発に焦点を当てています。
これらのモデルは、最初から構築されたか、大規模言語モデル (LLM) から適応されたかに関係なく、ゼロまたは少数ショットの予測タスクに優れています。
ただし、パフォーマンスの低下、高い計算要求、チャネル間相関や外因性相関の無視によって制限されます。
これに対処するために、パブリック TS データセットのみでトレーニングされた、効果的な転移学習機能を備えたコンパクトなモデル (100 万パラメーターから開始) である Tiny Time Mixers (TTM) を導入します。
TTM は、軽量の TSMixer アーキテクチャに基づいており、適応パッチ、多様な解像度サンプリング、解像度プレフィックス調整などのイノベーションを組み込んで、最小限のモデル容量でさまざまなデータセット解像度での事前トレーニングを処理します。
さらに、マルチレベル モデリングを採用してチャネル相関を捕捉し、微調整中に外来信号を注入します。
TTM は、計算要件を大幅に削減しながら、ゼロ/少数ショット予測において既存の一般的なベンチマークを (4 ~ 40%) 上回るパフォーマンスを示します。
さらに、TTM は軽量であり、CPU のみのマシンでも実行できるため、使いやすさが向上し、リソースに制約のある環境での幅広い採用が促進されます。
再現性と研究用途のためのモデルの重みは https://huggingface.co/ibm/ttm-research-r2/ で入手できます。一方、Apache ライセンスに基づくエンタープライズ使用の重みは次のようにアクセスできます。初期の TTM-Q バリアントは次のとおりです。
https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1、および最新のバリアント (TTM-B、TTM-E、TTM-A) の重みは次のとおりです。
https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2 で入手できます。
要約(オリジナル)
Large pre-trained models excel in zero/few-shot learning for language and vision tasks but face challenges in multivariate time series (TS) forecasting due to diverse data characteristics. Consequently, recent research efforts have focused on developing pre-trained TS forecasting models. These models, whether built from scratch or adapted from large language models (LLMs), excel in zero/few-shot forecasting tasks. However, they are limited by slow performance, high computational demands, and neglect of cross-channel and exogenous correlations. To address this, we introduce Tiny Time Mixers (TTM), a compact model (starting from 1M parameters) with effective transfer learning capabilities, trained exclusively on public TS datasets. TTM, based on the light-weight TSMixer architecture, incorporates innovations like adaptive patching, diverse resolution sampling, and resolution prefix tuning to handle pre-training on varied dataset resolutions with minimal model capacity. Additionally, it employs multi-level modeling to capture channel correlations and infuse exogenous signals during fine-tuning. TTM outperforms existing popular benchmarks in zero/few-shot forecasting by (4-40%), while reducing computational requirements significantly. Moreover, TTMs are lightweight and can be executed even on CPU-only machines, enhancing usability and fostering wider adoption in resource-constrained environments. The model weights for reproducibility and research use are available at https://huggingface.co/ibm/ttm-research-r2/, while enterprise-use weights under the Apache license can be accessed as follows: the initial TTM-Q variant at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1, and the latest variants (TTM-B, TTM-E, TTM-A) weights are available at https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2.
arxiv情報
著者 | Vijay Ekambaram,Arindam Jati,Pankaj Dayama,Sumanta Mukherjee,Nam H. Nguyen,Wesley M. Gifford,Chandra Reddy,Jayant Kalagnanam |
発行日 | 2024-11-07 15:07:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google