要約
ゼロ/少数ショット学習用の大規模な事前トレーニング済みモデルは、言語と視覚の領域では優れていますが、公開されている事前トレーニング データの多様性と不足により、多変量時系列 (TS) では課題に直面します。
その結果、最近では、TS 予測にトークンを適応させた事前トレーニング済みの大規模言語モデル (LLM) を利用することが急増しています。
これらのアプローチではクロスドメイン転移学習が採用されており、驚くべきことに素晴らしい結果が得られます。
ただし、これらのモデルは通常、非常に遅く、サイズが大きいため (パラメーター数は約 10 億個)、チャネル間の相関は考慮されていません。
これに対処するために、軽量の TSMixer アーキテクチャに基づいた非常に小型のモデルである Tiny Time Mixers (TTM) を紹介します。
TTM は、予測のための効果的な転移学習機能を備え、パブリック TS データセットのみでトレーニングされた、高速で小型の一般的な事前トレーニング済みモデル (パラメータ 100 万未満) の開発に初めて成功しました。
さまざまな時間解像度を持つ複数のデータセットでの事前トレーニングの複雑さに対処するために、適応パッチング、ダウンサンプリングによるデータセットの拡張、解像度プレフィックス調整などのいくつかの新しい機能強化を導入します。
さらに、マルチレベルのモデリング戦略を採用して、チャネル相関を効果的にモデル化し、微調整中に外来信号を注入します。これは、既存のベンチマークに欠けている重要な機能です。
TTM は、少数/ゼロショット予測において、一般的なベンチマークと比較して大幅な精度の向上 (12 ~ 38\%) を示しています。
また、LLM-TS 手法と比較して、計算の必要性が大幅に削減され、学習可能なパラメータが 14 分の 1、合計パラメータが 106 分の 1、微調整 (65 倍) と推論時間 (54 分の 1) が大幅に削減されます。
実際、TTM のゼロショットは多くの一般的なベンチマークで少数ショットの結果を上回ることが多く、当社のアプローチの有効性が強調されています。
コードと事前トレーニングされたモデルはオープンソース化されます。
要約(オリジナル)
Large pre-trained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pre-training data. Consequently, there has been a recent surge in utilizing pre-trained large language models (LLMs) with token adaptations for TS forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large (~billion parameters) and do not consider cross-channel correlations. To address this, we present Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing fast and tiny general pre-trained models (<1M parameters), exclusively trained on public TS datasets, with effective transfer learning capabilities for forecasting. To tackle the complexity of pre-training on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and infuse exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM shows significant accuracy gains (12-38\%) over popular benchmarks in few/zero-shot forecasting. It also drastically reduces the compute needs as compared to LLM-TS methods, with a 14X cut in learnable parameters, 106X less total parameters, and substantial reductions in fine-tuning (65X) and inference time (54X). In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and pre-trained models will be open-sourced.
arxiv情報
著者 | Vijay Ekambaram,Arindam Jati,Nam H. Nguyen,Pankaj Dayama,Chandra Reddy,Wesley M. Gifford,Jayant Kalagnanam |
発行日 | 2024-01-17 16:27:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google