要約
ゼロ/少数ショット学習のための大規模な事前トレーニング済みモデルは、言語と視覚の領域では優れていますが、公開されている事前トレーニング データの多様性と不足により、多変量時系列 (TS) では課題に直面します。
その結果、時系列予測にさまざまな適応を備えた事前トレーニング済みの大規模言語モデル (LLM) を利用することが最近急増しています。
これらのアプローチではクロスドメイン転移学習が採用されており、驚くべきことに素晴らしい結果が得られます。
ただし、これらのモデルは通常、非常に遅くて大きく ($\sim$billion パラメーター)、チャネル間の相関を考慮していません。
これに対処するために、軽量の TSMixer アーキテクチャに基づいた非常に小型のモデルである Multi-level Tiny Time Mixers (TTM) を紹介します。
TTM は、予測のための効果的な転移学習機能を使用して、わずか 4 ~ 8 時間でパブリック TS データセットのみでトレーニングされた、小さな一般的な事前トレーニング済みモデル ($\le$100 万パラメーター) の開発に初めて成功しました。
さまざまな時間解像度を持つ複数のデータセットでの事前トレーニングの複雑さに対処するために、適応パッチング、ダウンサンプリングによるデータセットの拡張、解像度プレフィックス調整などのいくつかの新しい機能強化を導入します。
さらに、マルチレベル モデリング戦略を採用して、チャネル相関を効果的にモデル化し、微調整中に外来信号を組み込みます。これは、既存のベンチマークに欠けている重要な機能です。
TTM は少数/ゼロショット予測に優れており、既存のベンチマークと比べて精度が大幅に向上 (12 ~ 38%) することが実証されています。
さらに、モデル パラメーターの 14 ~ 106 倍の大幅な削減を実現し、LLM-TS ベンチマークと比較して 54 ~ 65 倍高速な微調整/推論が可能になります。
実際、TTM のゼロショットは多くの一般的なベンチマークで少数ショットの結果を上回ることが多く、当社のアプローチの有効性が強調されています。
コードと事前トレーニング済みモデルはオープンソース化されます。
要約(オリジナル)
Large Pretrained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pretraining data. Consequently, there has been a recent surge in utilizing pretrained large language models (LLMs) with various adaptations for time series forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large ($\sim$billion parameters) and do not consider cross-channel correlations. To address this, we present Multi-level Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing tiny general-pretrained models ($\le$1 million parameters), exclusively trained on public TS datasets in a flash of just 4-8 hrs with effective transfer learning capabilities for forecasting. To tackle the complexity of pretraining on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and incorporate exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM excels in few/zero-shot forecasting, demonstrating significant accuracy gains (12-38%) over existing benchmarks. Further, it achieves a remarkable 14-106X reduction in model parameters, enabling 54-65X faster finetuning/inference as compared to the LLM-TS benchmarks. In fact, TTM’s zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and Pretrained Models will be open-sourced.
arxiv情報
著者 | Vijay Ekambaram,Arindam Jati,Nam H. Nguyen,Pankaj Dayama,Chandra Reddy,Wesley M. Gifford,Jayant Kalagnanam |
発行日 | 2024-01-11 18:21:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google