要約
自然言語処理 (NLP) の大規模言語モデル (LLM) の最近の進歩に触発されて、時系列予測の基礎モデルの開発に焦点を当てた研究が急増しています。
1 つのアプローチには、クロスエントロピー損失を使用してトークン化された時系列データで LLM アーキテクチャをトレーニングすることが含まれます。
この方法は有望な結果を示していますが、クロスエントロピー損失は主に分類タスク用に設計されており、クラス間の距離は考慮されていません。
この制限に対処するために、このようなアーキテクチャに Wasserstein 損失を使用することを提案します。
私たちのアプローチを検証するために、22 ドルのゼロショット データセットで基本的な時系列モデルを微調整し、クロス エントロピー損失のパフォーマンスをワッサーシュタイン損失のパフォーマンスと比較しました。
私たちの結果は、クロスエントロピー損失をワッサーシュタイン損失に置き換えることで点推定が大幅に改善されることを示しています。
要約(オリジナル)
Inspired by recent advancements in large language models (LLMs) for Natural Language Processing (NLP), there has been a surge in research focused on developing foundational models for time series forecasting. One approach involves training LLM architectures on tokenized time series data using cross-entropy loss. Although this method has demonstrated promising results, cross-entropy loss is primarily designed for classification tasks and does not account for the distance between classes. To address this limitation, we propose using the Wasserstein loss for such architectures. To validate our approach, we fine-tuned a foundational time series model on $22$ zero-shot datasets, comparing the performance of cross-entropy loss with that of Wasserstein loss. Our results demonstrate that replacing cross-entropy loss with Wasserstein loss significantly improves point estimation.
arxiv情報
著者 | Andrei Chernov |
発行日 | 2024-11-18 17:00:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google