要約
ゼロ/フューショット学習用の大規模事前トレーニング モデルは、言語と視覚の領域では優れていますが、公開されている事前トレーニング データの多様性と不足により、多変量時系列 (TS) では課題に直面します。
その結果、時系列予測にさまざまな適応を備えた事前トレーニング済みの大規模言語モデル (LLM) を利用することが最近急増しています。
これらのアプローチではクロスドメイン転移学習が採用されており、非常に印象的な結果が得られます。
ただし、これらのモデルは通常、非常に大きく ($\sim$ 10 億のパラメーター)、実行が遅く、チャネル間の相関が考慮されていません。
これに対処するために、軽量の TSMixer アーキテクチャに基づいた大幅に小型のモデルである Multi-level Tiny Time Mixers (TTM) を紹介します。
TTM は、効果的な転移学習機能を備えたパブリック TS データのみでトレーニングされた、小さな事前トレーニング済みモデル ($\le$100 万パラメーター) の開発に初めて成功しました。
さまざまな時間解像度を持つ複数のデータセットでの事前トレーニングの複雑さに対処するために、適応パッチング、ダウンサンプリングによるデータセットの拡張、解像度プレフィックス調整などのいくつかの新しい機能強化を導入します。
さらに、マルチレベルのモデリング戦略を採用して、チャネル相関を効果的にモデル化し、微調整中に外来信号を組み込みます。これは、既存のベンチマークに欠けている重要な機能です。
TTM は少数/ゼロショット予測に優れており、既存のベンチマークと比べて精度が大幅に向上 (12 ~ 38%) することが実証されています。
さらに、モデルパラメータの 14 ~ 106 倍の大幅な削減を実現し、LLM-TS ベンチマークと比較して 54 ~ 65 倍高速なトレーニング/推論が可能になります。
実際、TTM のゼロショットの結果は、多くのベンチマークで数ショットの結果を上回ることが多く、私たちのアプローチの有効性が強調されています。
コードと事前トレーニング済みモデルはオープンソース化されます。
要約(オリジナル)
Large Pretrained models for Zero/Few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pretraining data. Consequently, there has been a recent surge in utilizing pretrained large language models (LLMs) with various adaptations for time series forecasting. These approaches employ cross-domain transfer learning, yielding highly impressive results. However, these models are typically very large ($\sim$ billion parameters), exhibit slow execution, and do not consider cross-channel correlations. To address this, we present Multi-level Tiny Time Mixers (TTM), a significantly smaller model based on the lightweight TSMixer architecture. TTM marks the first success in developing tiny pretrained models ($\le$1 million parameters), exclusively trained on public TS data with effective transfer learning capabilities. To tackle the complexity of pretraining on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and incorporate exogenous signals during finetuning, a crucial capability lacking in existing benchmarks. TTM excels in few/zero-shot forecasting, demonstrating significant accuracy gains (12-38%) over existing benchmarks. Further, it achieves a remarkable 14-106X reduction in model parameters, enabling 54-65X faster training/inference as compared to the LLM-TS benchmarks. In fact, TTM’s zero-shot results often surpass the few-shot results in many benchmarks, highlighting the efficacy of our approach. Code and Pretrained Models will be open-sourced.
arxiv情報
著者 | Vijay Ekambaram,Arindam Jati,Nam H. Nguyen,Pankaj Dayama,Chandra Reddy,Wesley M. Gifford,Jayant Kalagnanam |
発行日 | 2024-01-08 15:21:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google