On the Regularization of Learnable Embeddings for Time Series Processing

要約

複数の時系列を処理する場合、各時系列の個々の特徴を考慮するのは困難な場合があります。
これに対処するために、時系列分析のための最新のディープ ラーニング手法では、共有 (グローバル) モデルと、各時系列に固有のローカル レイヤーを組み合わせます。多くの場合、学習可能な埋め込みとして実装されます。
理想的には、これらのローカル エンベディングは、各シーケンスの固有のダイナミクスの意味のある表現をエンコードする必要があります。
ただし、これらが予測モデルのパラメーターとしてエンドツーエンドで学習されると、単なるシーケンス識別子として機能してしまう可能性があります。
共有処理ブロックはそのような識別子に依存するようになり、新しいコンテキストへの転送可能性が制限される可能性があります。
この論文では、時系列処理のためのローカル学習可能な埋め込みの学習を正規化する方法を調査することで、この問題に対処します。
具体的には、このテーマに関する最初の大規模な実証研究を実行し、そのような正則化が広く採用されているアーキテクチャでパフォーマンスを一貫して向上させる方法を示します。
さらに、この状況では、ローカルパラメータとグローバルパラメータの同時適応を防ぐ方法が特に効果的であることを示します。
この仮説は、下流モデルがシーケンス識別子に依存するのを防ぎ、トレーニング中に埋め込みを完全にリセットするまでのいくつかの方法を比較することによって検証されます。
得られた結果は、学習可能なローカル パラメーターと共有処理層の間の相互作用の理解に重要な貢献を提供します。これは、現代の時系列処理モデルにおける重要な課題であり、時系列の効果的な基礎モデルの開発に向けた一歩となります。

要約(オリジナル)

In processing multiple time series, accounting for the individual features of each sequence can be challenging. To address this, modern deep learning methods for time series analysis combine a shared (global) model with local layers, specific to each time series, often implemented as learnable embeddings. Ideally, these local embeddings should encode meaningful representations of the unique dynamics of each sequence. However, when these are learned end-to-end as parameters of a forecasting model, they may end up acting as mere sequence identifiers. Shared processing blocks may then become reliant on such identifiers, limiting their transferability to new contexts. In this paper, we address this issue by investigating methods to regularize the learning of local learnable embeddings for time series processing. Specifically, we perform the first extensive empirical study on the subject and show how such regularizations consistently improve performance in widely adopted architectures. Furthermore, we show that methods preventing the co-adaptation of local and global parameters are particularly effective in this context. This hypothesis is validated by comparing several methods preventing the downstream models from relying on sequence identifiers, going as far as completely resetting the embeddings during training. The obtained results provide an important contribution to understanding the interplay between learnable local parameters and shared processing layers: a key challenge in modern time series processing models and a step toward developing effective foundation models for time series.

arxiv情報

著者 Luca Butera,Giovanni De Felice,Andrea Cini,Cesare Alippi
発行日 2024-10-18 17:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク