要約
トランスフォーマーベースのアーキテクチャは、自然言語処理とコンピューター ビジョンにおいて画期的なパフォーマンスを達成しましたが、多変量の長期予測においては、依然として単純な線形ベースラインより劣っています。
この現象をよりよく理解するために、おもちゃの線形予測問題を研究することから始めます。この問題について、変圧器はその高い表現力にもかかわらず真の解に収束できないことを示します。
さらに、変圧器の注意がこの一般化能力の低さの原因であることを特定します。
この洞察に基づいて、シャープネスを意識した最適化で最適化した場合に不正な極小値をうまく回避する浅い軽量トランスフォーマー モデルを提案します。
私たちは、この結果が現実世界で一般的に使用されているすべての多変量時系列データセットに当てはまることを経験的に示しています。
特に、SAMformer は現在の最先端モデル TSMixer を平均 14.33% 上回っていますが、パラメータは約 4 分の 1 です。
コードは https://github.com/romilbert/samformer で入手できます。
要約(オリジナル)
Transformer-based architectures achieved breakthrough performance in natural language processing and computer vision, yet they remain inferior to simpler linear baselines in multivariate long-term forecasting. To better understand this phenomenon, we start by studying a toy linear forecasting problem for which we show that transformers are incapable of converging to their true solution despite their high expressive power. We further identify the attention of transformers as being responsible for this low generalization capacity. Building upon this insight, we propose a shallow lightweight transformer model that successfully escapes bad local minima when optimized with sharpness-aware optimization. We empirically demonstrate that this result extends to all commonly used real-world multivariate time series datasets. In particular, SAMformer surpasses the current state-of-the-art model TSMixer by 14.33% on average, while having ~4 times fewer parameters. The code is available at https://github.com/romilbert/samformer.
arxiv情報
著者 | Romain Ilbert,Ambroise Odonnat,Vasilii Feofanov,Aladin Virmaux,Giuseppe Paolo,Themis Palpanas,Ievgen Redko |
発行日 | 2024-02-15 18:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google