One Fits All:Power General Time Series Analysis by Pretrained LM

要約

自然言語処理 (NLP) やコンピューター ビジョン (CV) では、事前トレーニングされたモデルが大きな成功を収めているのを私たちは目撃してきましたが、一般的な時系列分析については限定的な進歩しかありませんでした。
統合モデルを使用してさまざまなタスクを実行できる NLP や CV とは異なり、分類、異常検出、予測、少数ショット学習などの各時系列分析タスクでは、特別に設計されたアプローチが依然として主流です。
時系列分析用の事前トレーニング済みモデルの開発を妨げる主な課題は、トレーニング用の大量のデータが不足していることです。
この研究では、時系列分析のために数十億のトークンから事前にトレーニングされた言語または CV モデルを活用することで、この課題に対処します。
具体的には、事前トレーニングされた言語または画像モデルの残差ブロックの自己注意層とフィードフォワード層を変更することを控えます。
Frozen Pretrained Transformer (FPT) として知られるこのモデルは、時系列を含むすべての主要なタイプのタスクの微調整を通じて評価されます。
私たちの結果は、図 1 に示すように、自然言語または画像の事前トレーニング済みモデルが、すべての主要な時系列分析タスクにおいて同等または最先端のパフォーマンスをもたらすことができることを示しています。また、理論的にも経験的にも、
self-attention モジュールの動作は主成分分析 (PCA) と同様であり、トランスフォーマーがどのようにドメイン ギャップを埋めるかを説明するのに役立つ観察であり、事前トレーニングされたトランスフォーマーの普遍性を理解するための重要なステップとなります。

要約(オリジナル)

Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.

arxiv情報

著者 Tian Zhou,PeiSong Niu,Xue Wang,Liang Sun,Rong Jin
発行日 2023-05-25 14:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク